OpenAI 推出 GeneBench-Pro 基准测试,用于评估 AI 模型生物学计算能力 - 世界杯竞猜

与传统的侧重于“模型是否记住了信息”或“能否遵循既定步骤完成任务”的评估方法不同,GeneBench-Pro 旨在模拟真实科研场景下的应用性。它要求模型在面对“不精确、信息缺失、甚至包含杂乱信息的数据环境”下,进行判断和分析以得出结论。

GeneBench-Pro 包含针对基因组学、定量生物学和转化医学等多个领域设计的测试任务。该基准测试共设有 129 道题目,划分为 10 个主要领域和 21 个子领域。这些领域涵盖了统计遗传学、群体遗传学、功能基因组学、蛋白质组学等多个方面。每道题目都会为模型提供一个接近真实科研环境的数据集,辅以简短的实验背景介绍和一个与后续决策相关的目标问题。模型需要自行完成数据探索、选择分析方法,并在此过程中不断调整策略,最终给出答案。

为了规避传统长流程基准测试中常见的评分不准确问题,OpenAI 在开发 GeneBench-Pro 时,核心采用了合成数据。这是因为如果直接使用历史真实数据出题,常常会出现多条有效的分析路径,导致模型即使使用了错误的方法也可能偶然获得正确答案。

通过使用合成数据,OpenAI 能够完全掌控底层因果关系和数据生成过程,从而更精确地评估模型是否真正理解了问题,而不是仅仅通过“取巧”的方式来解决。

目前,OpenAI 已在 Hugging Face 上公开了 10 道具有代表性的 GeneBench-Pro 示例题目,并提供了一个可供外部研究人员体验的交互式界面。未来,官方计划将其中的 50 道题目开放给 Artificial Analysis 进行独立的第三方评估,以检验不同模型在这一基准测试下的实际性能。

世界杯赛程以世界杯直播为核心,带来高效便捷的体验。

实时体育数据 数据来源:世界杯赛程

⚽ 足球实时 (3)

主队比分客队联赛时间(北京)
阿尔巴明奇肯马1:0希尔埃恩达塞拉西埃塞俄比亚足球超级联赛20:00
第比利斯20257:1贝特莱米·凯达格鲁吉亚联赛318:00
内盖勒·阿尔西2:1哈瓦萨肯马埃塞俄比亚足球超级联赛18:00
更新于 2026-06-15 20:52(北京时间)