Model Search

Model Categories

Deep Research Agent LLM with Search


10	🚀 gemini-2.5-pro-deepresearch	48.92	48.45	43.73	49.29	49.77	75.01	165.34	Deep Research Agent


1	🚀 gemini-2.5-pro-deepresearch	48.92	48.45	48.3	49.29	49.77	78.3	165.34	Deep Research Agent
2	🚀 openai-deepresearch	46.45	46.46	43.73	49.39	47.22	75.01	39.79	Deep Research Agent
3	🚀 claude-research	45	45.34	42.79	47.58	44.66	-	-	Deep Research Agent
4	🚀 kimi-researcher	44.64	44.96	41.97	47.14	45.59	-	-	Deep Research Agent
5	🚀 doubao-deepresearch	44.34	44.84	40.56	47.95	44.69	52.86	52.62	Deep Research Agent
6	🚀 perplexity-Research	40.46	39.1	35.65	46.11	43.08	82.63	31.2	Deep Research Agent
7	🚀 grok-deeper-search	38.22	36.08	30.89	46.59	42.17	73.08	8.58	Deep Research Agent
8	sonar-reasoning-pro	37.76	34.96	31.65	44.93	42.42	45.19	9.39	LLM with Search
9	sonar-reasoning	37.75	34.73	32.59	44.42	42.39	52.58	13.37	LLM with Search
10	claude-3-7-sonnet-with-search	36.63	35.95	31.29	44.05	36.07	87.32	24.51	LLM with Search
11	sonar-pro	36.19	33.92	29.69	43.39	41.07	79.72	16.75	LLM with Search
12	gemini-2.5-pro-preview-05-06	31.9	31.75	24.61	40.24	32.76	-	-	LLM with Search
13	gpt-4o-search-preview	30.74	27.81	20.44	41.01	37.6	86.63	5.05	LLM with Search
14	sonar	30.64	27.14	21.62	40.7	37.46	76.41	10.68	LLM with Search
15	gpt-4.1	29.31	25.59	18.42	40.63	36.49	89.85	4.27	LLM with Search
16	gemini-2.5-flash-preview-04-17	29.19	28.97	21.62	37.8	29.97	-	-	LLM with Search
17	gpt-4o-mini-search-preview	27.62	24.24	16.62	38.59	35.27	81.69	4.62	LLM with Search
18	gpt-4.1-mini	26.62	22.86	15.39	38.18	34.49	84.54	4.1	LLM with Search
19	claude-3-5-sonnet-with-search	23.95	21.28	16.2	32.41	29.87	94.06	9.35	LLM with Search

📊 Column Descriptions

Rank: Model ranking based on overall score
model: Model name (🚀 = Deep Research Agent)
overall: Overall Score (weighted average of all metrics)
comp.: Comprehensiveness - How thorough and complete the research is
insight: Insight Quality - Depth and value of analysis
inst.: Instruction Following - Adherence to user instructions
read.: Readability - Clarity and organization of content
c.acc.: Citation Accuracy - Correctness of references
eff.c.: Effective Citations - Relevance and quality of sources
category: Model category

Select Task

User Task 🎯

Task ID: 19

Description: prometheus 的高流失率会造成什么影响，有什么系统的方案可以解决？各家云厂商有没有现有方案？

Select Model A

Generated Article 📖

Prometheus 是一款广泛应用的开源监控系统，但在大规模监控场景下，可能会面临高数据流失率的问题。这种高流失率可能导致监控数据不完整，影响系统的可观测性和故障排查能力。为了解决这一问题，可以采取以下系统性的方案：

1. 分片（Sharding）

通过将监控目标分配给不同的 Prometheus 实例，可以有效分担监控负载，减少单个实例的压力。例如，可以根据目标的哈希值进行分片，每个实例仅采集特定分片的数据。

2. 高可用（High Availability）

运行多个 Prometheus 实例同时采集相同的数据，并通过负载均衡分担查询压力。这种高可用模式不仅提升了系统的健壮性，还能确保在某个实例故障时，其他实例仍能提供服务。

3. 使用远程存储（Remote Storage）

将监控数据写入支持水平扩展的远程存储系统，如 VictoriaMetrics 或 Thanos。这些系统能够处理大规模数据存储和查询，缓解 Prometheus 本地存储的压力。

4. 降采样（Downsampling）

对长时间跨度的数据进行降采样，减少存储和查询的压力。例如，Thanos 提供了降采样功能，通过定期从对象存储中拉取数据块，进行压缩和降采样，生成新的数据块，写入对象存储。

云厂商的现有方案

各大云厂商也提供了针对 Prometheus 高流失率的解决方案：

阿里云：其 ARMS Prometheus 近期上线了降采样功能，旨在解决大规模监控数据存储与查询的挑战。 (xie.infoq.cn)
百度云：提供了基于 Prometheus 的高可用集群方案，通过流计算加速、高可用 HA、自动分片管理等手段，实现亿级别指标的高可靠采集。 (xie.infoq.cn)

通过上述方案，可以有效降低 Prometheus 的高流失率，提升监控系统的稳定性和可靠性。

References

[1] https://xie.infoq.cn/article/ee9c02b75f1c3d75d7f2bf47f?utm_source=openai - 可观测｜时序数据降采样在Prometheus实践复盘_阿里云_阿里巴巴云原生_InfoQ写作社区

[2] https://xie.infoq.cn/article/7e50769e65097e0ac16f1eae6?utm_source=openai - 百度可观测系列 | 采集亿级别指标，Prometheus 集群方案这样设计 - InfoQ 写作平台

Overall
Score

23.61

Comprehen-
siveness

20.44

Insight
Score

7.83

Instruction
Following

41.18

Readability
Score

31.74

Select Model B

Generated Article 📖

好的，我现在需要处理用户关于Prometheus高流失率影响及解决方案的问题。首先，我需要理解用户的问题。高流失率在Prometheus中的定义是什么，它会带来哪些具体问题？然后，用户还想知道解决这些问题的系统方案以及各家云厂商是否有现有的解决方案。

首先，回顾一下用户提供的搜索结果。搜索结果中多次提到高流失率的影响，包括增加存储的时间序列总数，导致性能下降、高RAM使用率，以及内存不足错误（OOM）。例如，搜索结果[1]指出高流失率会增加基数，引发性能问题和内存问题。另外，搜索结果[3]提到大量监控目标和指标具有高流失率的情况，可能来自不可枚举的标签如userID或URL。

接下来，我需要确定高流失率的具体影响。根据搜索结果的信息，影响有：内存占用升高、存储空间增加、查询性能下降。例如，搜索结果[4]提到高流失率会增加时间序列总数，影响查询性能。另外，搜索结果[8]提到Prometheus可能在生产环境中出现内存不足的问题，尤其是在处理大量指标时。

高流失率的负面影响

1. 资源消耗激增
高流失率会导致Prometheus内存占用激增，因为每个新时间序列都需要占用内存空间。例如，当Kubernetes Pod因标签（如pod_name）频繁变化时，旧时间序列大量转为非活跃状态，同时新时间序列快速产生，导致内存足量的风险[1][3][8]。
2. 存储压力增加
倒排索引（如indexdb）会因时间序列数量增加而膨胀存储空间。搜索结果显示，高流失率直接增加数据库中时间序列总数和倒排索引大小，可能导致磁盘I/O压力升高[1][2][4]。
3. 查询性能下降
标签过滤器匹配计算成本会随时间序列数量线性增加。PromQL查询性能受高流失率严重影响，尤其是复杂的时间序列扫描操作（如series created）会导致响应延迟[4][8]。

系统优化方案

1. 标签策略优化
核心措施：过滤高基数指标，迁移问题标签到日志系统。通过PromQL警报规则（如count(``))识别高基数标签并配置drop策略，例如禁止user_id或URL等不可枚举标签[9][10]。
技术工具：


alert HighCardinalityMetric if (sum(count({__name__="metric_name"})) > 1e6) # 自定义阈值

2. 存储层优化
解决方案：

细分策略	关键技术	依赖组件
短期存储优化	1. 取出`storage.tsdb.path`的热数据；2. 使用`Remote Read`同步长期存储	本地TSDB+远程存储
高流失率指标隔离	1. 部署独立的Prometheus实例；2. 使用`Federation`分片	多Prometheus实例
低基数规则	1. 预聚合`Recording Rules`降维；2. 使用`VictoriaMetrics`高效存储	VictoriaMetrics

3. 集群架构升级

方案类型	核心特征	适用场景
基础HA（多_instance）	负载均衡+远程存储	小规模、短期存储需求
联邦集群（federation)	按功能分shard存储	大规模、功能类指标
分布式存储（Thanos_或_VictoriaMetrics)	全局查询+数据去重	企业级长期存储

云厂商现有方案

1. 阿里云可观测监控Prometheus版

特性：兼容开源Prometheus生态，自动托管高可用性，内置Recording Rules预聚合能力。提供CloudLens单一可观测平台，支持跨账号数据聚合查询[7][8]。
优势：托管运维降低部署负担，集成告警响应链路，适合混合云监控场景。

2. AWS CloudWatch与Prometheus集成
虽然未直接提到高流失率解决方案，但支持Prometheus Serverless架构，通过弹性高度可用性降低单点故障风险。结合S3存储和Lambda计算，可扩展远程存储与处理能力。

3. 谷歌云Stackdriver Monitoring
通过集成OpenTelemetry和分布式追踪工具，对标签策略进行优化，同时利用分层存储（短期存储+冷链）降低高流失率对内存的压力。

4. 亚马逊云服务与Victoriametrics
一些第三方方案推荐使用Victoriametrics替代Prometheus，因为其*-merge引擎能支持高流失率场景下的高效存储和查询[5][6]。该方案通过Push/Pull协议对等支持，适合需自建存储的情况。

方案对比

方案类别	优点	缺点与限制	适用场景
标签优化	成本低，无需架构变更	依赖服务层配合，改造周期长	补丁优化，短期缓解
远程存储+HA	保证数据持久化，容错能力	查询延迟增加，数据一致性弱	中小规模集群
分布式存储	真正意义上的高可用与扩展	运维复杂度高，部署成本上升	企业级长期存储
云托管方案	零运维，高度可用性	成本较高，生态适配性受限	混合云/公有云统一监控

关键问题：高流失率的本质是指标命名不当导致标签爆炸。系统方案需从服务层（标签策略）到存储层（TSDB优化）多维优化，云厂商方案在托管易用性上对存储层数值优化有限，推荐结合服务层优化与云存储方案[7][8][9]。

参考文献：

[1] https://blog.csdn.net/qq_43684922/article/details/131095243

[2] https://www.cnblogs.com/ahfuzhang/p/15668606.html

[3] https://developer.volcengine.com/articles/7490493002389929996

[4] https://flashcat.cloud/blog/how-to-optimize-promql-and-metricsql-queries/

[5] https://www.qikqiak.com/post/victoriametrics-usage/

[6] https://yasongxu.gitbook.io/container-monitor/yi-.-kai-yuan-fang-an/di-2-zhang-prometheus/prometheus-use

[7] https://www.alibabacloud.com/help/zh/arms/prometheus-monitoring/product-overview/what-is-prometheus

[8] https://developer.aliyun.com/article/765358

[9] https://www.cnblogs.com/JetpropelledSnake/p/10429395.html

[10] https://my.oschina.net/u/6800876/blog/18175994

Overall
Score

39.27

Comprehen-
siveness

34.97

Insight
Score

33.50

Instruction
Following

50.00

Readability
Score

42.64

Select Model

Select Task

User Task 🎯

Task ID: 14

Description: 收集整理全球数学与量子计算交叉领域的主要研究团队及其成果，横向比较其研究方向、论文产出、国际合作、资金支持、工业界合作等维度，评估哪些团队最有可能在未来5-10年内推动量子计算技术的重大突破，并预测可能产生的关键性数学理论或应用技术

Generated Article 📖

全球数学与量子计算交叉领域主要研究团队分析

随着量子计算技术的迅猛发展，数学与量子计算的交叉研究已成为推动量子技术突破的关键力量。通过对全球主要研究团队的综合分析，可以勾勒出这一领域的发展图景及未来趋势。

中国领先研究团队

清华大学丘成桐数学科学中心刘子文团队

研究方向：量子信息与理论物理交叉领域，特别是广义量子纠错性质研究。

主要成果：该团队在2024年创新性地建立了广义量子纠错性质与系统量子关联的普适新理论，为量子纠错编码提供了重要理论基础[1]。

影响力：作为清华大学重要研究力量，在量子纠错领域具有显著学术影响力。

西交利物浦大学丁津泰团队

研究方向：后量子密码学，特别是格密码学和抗量子密码算法。

主要成果：

2025年成功破解200维SVP（最短向量问题）难题，刷新全球纪录[3]
设计NIST首批抗量子密码唯一正式算法标准ML-KEM[3]

国际合作：与德国科学院院士Johannes Buchmann团队、东京大学Tsuyoshi Takagi团队等国际顶尖机构建立深度合作[7]。

产业合作：与江苏省金融学会、中国建设银行、中国人民银行金融研究所等开展合作，推动抗量子密码技术的创新与成果转化[3]。

资金支持：参与科技部重点研发计划"银行业及关键基础设施信息系统抗量子密码迁移关键技术研究"[3]。

中科院数学与量子物理效应创新交叉团队

研究方向：结合数学与物理的交叉融合，聚焦量子物理中的关键方程模型研究。

主要成员：由闫振亚研究员负责，团队成员包括王益、国家授时中心张晓斐、北京计算科学研究中心蔡勇勇和北京邮电大学刘文军[4]。

研究重点：自旋-轨道耦合偶极Bose气体模型、复系数耦合Ginzburg-Landau方程组、量子Boltzmann方程等物理模型的理论分析[4]。

应用前景：为原子钟、原子激光、原子光栅等高技术领域的应用提供理论基础，特别是在全球卫星导航、深海探测、重力测量及工业精密测控等领域[4]。

上海交通大学金贤敏团队

研究方向：人工智能与量子信息技术交叉研究。

主要成果：与南方科技大学翁文康教授合作，首次将机器学习技术应用于解决量子信息难题，实验实现了基于人工神经网络的量子态分类器[5]。

创新点：将量子力学中贝尔不等式测量参数对应到人工智能网络，简化了传统上被认为是资源消耗度高的量子态分类问题[5]。

学术影响：相关成果发表在国际物理学权威期刊《物理评论快报》，标志着人工智能与量子信息技术交叉领域的重要突破[5]。

中国科学技术大学"九章"团队

研究方向：光量子计算机研发。

主要成果：成功研发"九章三号"量子计算机，实现从量子优越性向实用性开发的跨越[9]。

应用探索：正在探索在图论、盲计算、量子精密测量等方面的应用问题，寻找具有现实应用价值的场景[9]。

团队领军人：包括潘建伟、陆朝阳等著名科学家[9]。

国际重要研究团队

Quantinuum公司研究团队(英国)

研究方向：量子算法在拓扑学问题上的应用。

主要成果：利用量子计算机H2-2根据拓扑特性区分不同类型的绳结，计算绳结的"琼斯不变量"，速度可能超越经典计算机[2]。

技术突破：已在H2-2上计算了含600个交叉点的琼斯不变量，并预期未来设备可处理约3000个交叉点，超越经典计算机能力[2]。

商业化进展：计划于2025年推出新一代量子计算机Helios，有望在分析极端复杂绳结方面进一步突破经典超级计算机的限制[2]。

研究方向横向比较

研究团队	主要研究方向	突破性成果	产业应用潜力
清华大学刘子文团队	量子纠错编码理论	广义量子纠错性质新理论	量子计算容错系统
西浦丁津泰团队	后量子密码学	200维SVP难题破解、ML-KEM标准	金融系统安全
中科院闫振亚团队	量子物理数学模型	量子物理方程理论分析	高精度测量、导航
上交大金贤敏团队	AI与量子信息融合	基于神经网络的量子态分类器	量子状态快速分类
中科大九章团队	光量子计算机	九章三号量子计算机	多领域实用计算
Quantinuum团队	量子拓扑计算	琼斯不变量量子计算	拓扑结构分析

未来发展潜力评估

最有可能突破的团队

中科大九章团队：凭借在光量子计算机研发的领先地位，以及从"量子优越性"向实用性跨越的明确路线图，该团队有望在通用量子计算机的实用化方面取得重大突破。
西浦丁津泰团队：在后量子密码学领域的全球领先地位，加上与金融行业的深度合作，使其有望在量子安全领域成为引领者，特别是在金融和关键基础设施的量子安全防护方面。
Quantinuum研究团队：作为商业化程度较高的量子计算企业，其在拓扑量子计算领域的进展，特别是即将推出的Helios量子计算机，有望在特定问题求解方面展示量子优势。

可能产生的关键性突破

量子纠错编码的实用化：清华大学刘子文团队的量子纠错理论研究可能在未来5年内实现物理层面的验证，解决量子计算的噪声问题，这是实现大规模通用量子计算机的关键。
后量子密码标准的全面部署：西浦丁津泰团队的ML-KEM等后量子密码算法将可能在全球金融系统中得到广泛应用，形成抵御量子计算攻击的安全屏障。
量子-AI混合算法：上海交大金贤敏团队的研究方向代表了未来发展趋势，量子计算与人工智能的结合可能产生新型算法范式，提供解决复杂问题的新思路。
拓扑量子计算的应用拓展：Quantinuum团队在拓扑学问题上的应用探索，可能拓展到材料科学、药物设计等领域，为这些领域带来计算效率的大幅提升。

未来发展趋势预测

未来5-10年，数学与量子计算交叉领域可能出现以下重要发展：

学科交叉深化：信息网络、人工智能、生物技术与量子计算的深度融合将成为主流趋势，催生新型计算范式[8]。
实用化里程碑：预计将出现能解决特定实际问题且明显优于经典计算机的量子计算机，特别是在密码分析、材料设计和优化问题等领域[9]。
数学理论突破：针对量子算法的数学基础将有重大突破，特别是在量子机器学习、量子拓扑计算等领域，数学模型将为量子计算提供更坚实的理论基础[5]。
产学研一体化：随着量子计算的商业价值日益显现，学术界与产业界的合作将进一步加强，形成从基础理论到应用落地的完整创新链[3][7]。

随着这些团队的持续创新，量子计算有望在未来十年内从实验室走向更广泛的实际应用，为科技和经济发展带来革命性变革。

参考文献：

[1] https://www.tsinghua.edu.cn/info/1175/113643.htm

[2] https://www.stdaily.com/web/gjxw/2025-04/16/content_325023.html

[3] https://www.xjtlu.edu.cn/zh/news/2025/03/xiputuanduishuaxinkangliangzimimalingyuquanqiujilu

[4] http://iss.amss.cas.cn/xw/zhxw/201801/t20180117_394063.html

[5] https://news.sjtu.edu.cn/jdzh/20180618/77479.html

[6] http://www.casisd.cn/zkcg/ydkb/kjqykb/2015/201503/201703/P020170328555502384970.pdf

[7] https://www.xhby.net/content/s67d12a8fe4b06bf0396a2b9f.html

[8] https://www.most.gov.cn/xxgk/xinxifenlei/fdzdgknr/gjkjgh/201608/t20160810_127174.html

[9] http://www.news.cn/politics/2023-10/23/c_1129932602.htm

[10] http://www.moe.gov.cn/s78/A13/tongzhi/202409/W020240913629168996473.pdf

Overall Score

34.16

Comprehensiveness Score

26.47

Insight Score

33.27

Instruction-Following Score

39.87

Readability Score

41.94

🚧 Prompt-to-Leaderboard module not implemented yet.
Planned: inspect how individual prompts affect overall model ranking.

📊 Column Descriptions

User Task 🎯

Generated Article 📖

OverallScore

Comprehen-siveness

InsightScore

InstructionFollowing

ReadabilityScore

Generated Article 📖

高流失率的负面影响

系统优化方案

云厂商现有方案

方案对比

OverallScore

Comprehen-siveness

InsightScore

InstructionFollowing

ReadabilityScore

User Task 🎯

Generated Article 📖

全球数学与量子计算交叉领域主要研究团队分析

中国领先研究团队

清华大学丘成桐数学科学中心刘子文团队

西交利物浦大学丁津泰团队

中科院数学与量子物理效应创新交叉团队

上海交通大学金贤敏团队

中国科学技术大学"九章"团队

国际重要研究团队

Quantinuum公司研究团队(英国)

研究方向横向比较

未来发展潜力评估

最有可能突破的团队

可能产生的关键性突破

未来发展趋势预测

Overall Score

Comprehensiveness Score

Insight Score

Instruction-Following Score

Readability Score

Overall
Score

Comprehen-
siveness

Insight
Score

Instruction
Following

Readability
Score

Overall
Score

Comprehen-
siveness

Insight
Score

Instruction
Following

Readability
Score