![]()
这项由美国犹他大学卡尔特计算学院主导的研究,以预印本形式于2026年4月14日发布在arXiv平台,编号为arXiv:2604.13201v1,分类为计算语言学(cs.CL)方向。有兴趣深入了解的读者可通过该编号在arXiv网站上查阅完整论文。
研究背景与核心问题并不陌生。近年来,越来越多的科学家开始使用AI工具辅助日常科研工作——整理数据、分析实验结果、回答关于数据集的问题。这些"AI科学助手"能不能真正胜任这份工作?更关键的是,当手头的数据根本不够用来回答某个问题时,AI会不会老老实实说"我不知道",还是硬编一个看似合理的答案蒙混过关?犹他大学的研究团队针对这两个问题,设计了一套全新的评测系统,命名为InfiniteScienceGym,中文可以理解为"无限科学健身房"——一个专门训练和测试AI科学推理能力的场所。
一、为什么现有的评测工具不够用
要理解这套新工具的价值,得先搞清楚原有工具的缺陷在哪。以往评测AI科学能力,最常见的做法是从已发表的论文或真实实验数据集中挑选题目,然后让AI作答。这个路子看起来很自然,但实际上藏着几个难以回避的坑。
第一个坑叫做"发表偏倚"。科学界有个公开的秘密:只有得到正面结果、数据漂亮的实验才容易发表,那些结论模糊、数据不足、甚至发现"什么都没有"的研究往往被压在抽屉里。于是,从已发表论文里挑题目,几乎总是在问"这个实验发现了什么",而很少模拟"这个数据根本不够回答这个问题"的场景。但后者在真实科研中极为常见,甚至可以说是常态。
第二个坑叫做"先验知识污染"。现有的大语言模型在训练时见过大量的科学文献,当你给它看一个来自真实研究的数据集并提问时,模型很可能是在凭记忆作答,而不是真的"看懂了数据"。就像考试时偷看过标准答案,测出的不是真实能力。
第三个坑叫做"标注噪声"。真实数据集需要人工标注答案,人总会犯错,也会对模糊问题产生分歧,这让评测结果本身就不那么可靠。
第四个坑则很现实:存储和分发大规模科学数据集,成本高、法律风险大,也很难做到无限扩展。
正是为了绕开这四个坑,研究团队提出了一个完全不同的思路——与其收集真实数据,不如从零开始造数据。
二、"种一粒种子,长出一个实验室"
InfiniteScienceGym的核心机制可以用一个园艺比喻来理解:给系统一粒"种子"(一个随机数字),它就能确定地长出一整套完整的科学实验室,包括目录结构、实验文件、数据表格,以及与之配套的问题和答案。同一粒种子每次种下,长出的都是一模一样的实验室,不差毫厘。这意味着评测是完全可重复的,不需要存储任何真实数据,只需记住种子编号即可随时重现。
这套系统由三个核心模块组成,它们像流水线一样依次工作。
第一个模块叫做"模拟器"。它的工作是从一粒种子出发,生成一个完整的虚拟科学项目仓库。这个生成过程是自顶向下的,就像建房子先定地基再建墙,最后装修。系统首先从一个涵盖22个科学领域、244个分支方向、780个细分子方向的分类树中随机抽取一个科学领域。这个分类树覆盖了从计算机科学、生物医学、物理化学到社会学、统计学几乎所有的实证科学方向。
确定领域后,系统使用一个叫做Qwen3 4B Instruct的小型语言模型,根据该领域生成一个具体的科研项目构想,包括项目标题、详细的研究描述(含假设、自变量、因变量、潜在干扰因素)以及一段模拟学术摘要。这个项目描述是整个仓库的"设计蓝图",但永远不会直接暴露给被测试的AI。
有了项目蓝图,系统再生成一套符合真实科研习惯的目录结构,用文件夹名称和文件名来编码实验变量。以论文中的示例为例,种子编号118对应的是一个关于酿酒酵母菌株优化的生物工程项目,其目录结构是"/生长阶段/基因型_日期/时间点/序号-pH值.jsonl"这样的形式,光从路径名就能读出大量实验信息。
最后,系统为每个文件生成具体的表格数据。自变量按照各自类型(分类变量、离散整数变量、连续变量)采用对应的概率分布采样生成,而因变量则由AI写出的Python函数来计算——这些函数可以包含线性关系、非线性关系、噪声过程,甚至部分可观测性。论文附录中展示了一个完整的函数例子:模拟葡萄糖消耗率,同时考虑了生长阶段、温度、葡萄糖浓度、氧气水平、pH值和基因型等多个因素,每个因素都有对应的效应曲线,最后还叠加了随机噪声项,整个函数写了将近五十行Python代码,相当逼真。
第二个模块叫做"问答生成器"。它拥有对模拟器底层数据生成过程的完全知情权——也就是说,它知道每一个数据点是怎么算出来的。凭借这种"上帝视角",它能为每个仓库生成两类问题:有答案的问题和没有答案的问题,并且每道有答案的题都有精确的标准答案,每道无答案的题的"无法回答"性质也是由系统逻辑严格保证的,而不是靠人工判断。
无法回答的情形包括几种典型案例:按条件筛选后没有任何文件或数据行满足要求(空集上没法算中位数);问题要求计算某个变量的统计量,但该变量的类型根本不支持这种计算(比如对分类变量求中位数);或者问题涉及的变量根本不存在于数据中。这种"构造性无答案"是这套系统最重要的特性之一,后文的实验结果也证明,这正是现有AI模型的最大软肋。
第三个模块叫做"改写模块"。它把格式化的模板问题转化为研究者在实际工作中可能说出的自然语言提问,保留核心语义的同时让问题更自然、更多样。论文展示了一个具体例子:模板问题问的是"只考虑seq_number为4、date为2025-05-28、pH为4.0或5.0或6.0的文件,且只考虑temp为35、biomass在0.17到0.465范围内的行,residual_glucose变量的中位数是多少";经过Gemma 20B模型改写后变成了:"对于2025年5月28日第四次实验轮次,在发酵介质酸度为4.0至6.0且发酵温度为35摄氏度的条件下,当生物量浓度在每升0.17至0.465克之间时,发酵后残余葡萄糖的中位数是多少?"两个问题问的是完全相同的事,但后者读起来就像一位真正的生物工程师在提问。
三、实验设计:给AI配备真实工具,模拟真实工作场景
在评测阶段,研究团队评测了五个模型:两个商业闭源模型(OpenAI的GPT-5.4和Anthropic的Claude Opus 4.6)以及三个开源模型(GPT-OSS 20B、Qwen3 4B Instruct和Gemma 3 27B it)。评测方式特意还原了真实的科研助手使用场景——模型不是直接阅读数据,而是可以主动使用一套工具来探索仓库。
这套工具包含四个核心功能。第一个是目录列举功能,类似于在电脑里打开文件夹、查看里面有什么,支持通配符匹配。第二个是文本文件读取功能,支持只读取文件开头或结尾几行,避免一次性加载太多内容。第三个是二进制文件读取功能,用于处理Excel等格式。第四个也是最关键的:Python代码执行功能,模型可以在沙盒环境中编写和运行数据分析代码,调用numpy、pandas、scikit-learn等常用数据科学库,运行时间限制60秒、内存限制512MB。值得注意的是,文件读取工具也可以在Python代码内部调用,这意味着模型完全可以在不把整个文件加载进对话窗口的情况下,用代码处理数据。
每道题的评分是完全自动化的。数值型答案要求精确匹配(允许一定的有效数字误差),分类答案要求包含正确选项且不含其他错误选项,"无法回答"的判断则直接检查模型是否回复了"not possible"。
研究团队从前500个随机种子生成的15988道题中抽取了500道,涵盖五大题目类别,从易到难依次是:仓库元数据(读README文件)、文件元数据(了解单个文件的属性)、目录遍历(统计满足条件的文件数量)、单变量统计(计算特定筛选条件下某列的统计量)以及双变量统计(计算两列之间的相关性或假设检验结果)。500道题中361道(72.2%)有答案,139道(27.8%)无答案。对每道题,模型需要分别回答原始模板版本和三个不同模型生成的改写版本,共四个变体。
四、实验结果:没有一个模型及格,"不知道"是最难说的话
最直观的结论是:所有被测模型的整体准确率都相当低,最好的GPT-5.4也只达到44.8%,Claude Opus 4.6得到35.5%,而三个开源模型分别是GPT-OSS 20B的29.1%、Qwen3 4B Instruct的24.6%和Gemma 3 27B it的23.1%。商业模型整体显著优于开源模型,差距至少6.4个百分点,这种差异经过统计检验(双侧配对t检验,p≤0.001)是可信的,不是随机波动。
值得一提的是,Qwen3 4B Instruct模型正是用来生成这些虚拟仓库的模型本身——也许有人会猜它因此有"主场优势",但事实证明完全没有,它的得分排在倒数第二,说明生成这些数据和理解这些数据完全是两回事。
按题目类别看,差异非常明显。仓库元数据类题目(读README)是所有模型表现最好的类别,GPT-5.4达到72.6%,Claude Opus 4.6甚至达到77.9%,这说明所有模型都能读懂基础文档,没有障碍。双变量统计类也相对较好(各模型大约在43%至45%之间),原因在于这类题目的答案只有三个选项(是/否/不可能),本身是个三选一的问题,难度相对降低。
真正让商业模型和开源模型拉开差距的是文件元数据、目录遍历和单变量统计这三类。以"文件元数据-行数统计"为例,GPT-5.4得到51.4%,Claude Opus 4.6得到53.6%,而三个开源模型分别只有14.7%、8.1%和6.1%。这些题目需要模型做到以下几步:读懂问题中的筛选条件、把条件映射到目录结构和文件变量、写出正确的过滤代码、执行计算、最后判断结果是否有意义。任何一步出错都会导致最终答案错误,错误会像滚雪球一样在步骤间累积放大。
关于识别"无法回答"问题的能力,结果更加令人担忧。论文用精确率(Precision,当模型说"不可能"时,这个判断有多大比例是正确的)和召回率(Recall,真正无法回答的题目中,模型识别出了多大比例)来衡量这种能力。GPT-5.4和Claude Opus 4.6在这两个指标上都达到了80%以上,但没有一个超过83%,仍有明显的提升空间。它们的错误类型较为平衡,即该说"不知道"时说了答案,和不该说"不知道"时说了"不知道",两类错误大致相当。
开源模型则呈现出完全不同的失败模式:精确率很高(超过80%),召回率极低(低至40%左右)。这意味着当开源模型选择说"不知道"时,通常是对的;但问题是它们太少说"不知道"了——遇到根本无法回答的问题,它们也会绞尽脑汁编出一个答案来。这种"宁可答错也不认输"的行为模式,在真实科研场景中相当危险:一个错误但自信的结论,可能把整个研究方向引偏。
五、更多工具调用反而更好,更多token却未必
研究团队还分析了模型的解题策略,发现了一个颇为反直觉的规律:消耗更多token的模型,准确率并不更高。GPT-5.4平均每道题只用了约24000个token,是所有模型中最节省的,但准确率最高。相比之下,开源模型有时会使用多达80000个token,准确率却低得多。
这个现象的背后逻辑并不复杂。开源模型倾向于把整个数据文件直接读入对话窗口——相当于把一本厚厚的数据手册完整地抄在草稿纸上,然后凭肉眼逐行查找答案。这种方式效率极低,而且超长的文本输入本身就会干扰模型的推理质量。GPT-5.4则不同,它通常只读取文件的前几十行来了解数据结构,随后直接调用Python代码工具来处理数据,让程序精确地完成过滤、计算工作。论文附录中专门对比了两个模型面对同一道"统计某文件行数"题目时的解题过程:Gemma 3 27B it花了七个步骤导航到文件、读取全部内容,然后靠肉眼数了157行(实际是163行,答错了);GPT-5.4只用两步,先读了40行确认文件格式,然后一行Python代码`json.load`加`len()`就得出了正确答案163。
与此相对,工具调用次数越多,准确率确实越高。GPT-5.4平均每题调用约7次工具,而Qwen3 4B Instruct只调用约2次。更多的工具调用意味着更充分的探索:先看目录结构,再读文件头部,再确认变量类型,最后运行计算代码——每一步都在缩小不确定性,而不是靠一次大规模数据加载然后凭感觉作答。
六、改写问题后答案会不会乱?
针对改写模块引入的变化是否会让评测结果失真,研究团队用Krippendorff's Alpha系数(一种衡量不同评分者或不同条件下评分一致性的统计指标,可以理解为"问题换了说法,模型答案还有多稳定")来量化影响。三种改写模型(GPT-OSS 20B、Gemma 3 27B it、Qwen3 4B Instruct)下的一致性系数分别为0.71、0.68和0.69,均属于中等一致性——说明改写确实引入了一定噪声,但不是致命的。GPT-OSS 20B的改写语义保留最好,模型切换说法后答案最稳定。
有一个很有趣的发现:每个被测模型在自己"同族"改写模型生成的问题上,一致性往往高于其他模型的改写版本。比如GPT-OSS 20B在由自己改写的问题上一致性是0.72,高于Gemma 3 27B it改写版本的0.67和Qwen3 4B Instruct改写版本的0.69。研究团队对此的解读是:模型对于自己引入的歧义往往有更强的"免疫力",因为它在生成问题时也采用了类似的表达习惯,所以在理解时更容易对齐。
七、这套系统能做什么,不能做什么
InfiniteScienceGym并不声称能替代所有现有的科学评测基准。研究团队很清楚地指出,这套系统的核心优势是可控性而非真实感。它生成的是一个干净、结构清晰、关系可追溯的虚拟科学环境,非常适合用来测试特定的推理能力——文件导航、条件过滤、统计计算、以及对"没有答案"的正确识别。
然而,真实科研环境中的数据往往更混乱:列名有拼写错误、文件格式不统一、数据有缺失和异常值、变量定义含糊不清。这些"真实的脏数据"带来的挑战,InfiniteScienceGym目前尚未模拟。此外,现有系统只覆盖表格数据,不涉及图像、音频、视频或非实证性的科学推理任务。还有一点值得注意:由于这套系统采用程序生成,生成过程中可能存在可被模型利用的规律性——未来的模型或许会学会"破解生成器的套路"而非真正理解数据,这是所有程序生成评测系统共同面临的潜在风险。
研究团队设想的几个未来改进方向包括:扩展到更多数据类型和更混乱的仓库结构;利用对数据生成过程的完全掌控,专门构造"与常识相悖"的数据集,用于测量模型的先验知识偏差(即判断模型是否真的看了数据,还是靠先入为主的印象作答);以及通过追踪模型实际访问了哪些文件来研究幻觉现象——如果一个问题的答案所在文件根本没被模型打开,那它给出的答案就必然是编造的。
归根结底,这项研究提醒我们一件在AI浪潮中容易被忽视的事:让AI"能回答"问题和让AI"知道什么时候不该回答",是两个难度层级完全不同的目标。后者在科学研究中尤为重要,因为在实验室里,承认数据不足所需要的勇气,和从数据中发现规律所需要的能力,同等珍贵。当前没有一个模型在这个测试中得分超过45%,而识别"我不知道"的能力更是所有模型共同的短板。这不是一个令人沮丧的结论,而是一个清晰的路标——指向下一代科学AI助手应该努力的方向。
有兴趣深入探究这套评测系统技术细节的读者,可以在arXiv平台通过编号2604.13201查阅完整论文,研究团队也承诺将公开全部代码(含仓库生成提示词)和配套的模型性能追踪网站,方便研究社区持续跟进不同模型在这个基准上的表现变化。
Q&A
Q1:InfiniteScienceGym是什么,和普通AI评测基准有什么区别?
A:InfiniteScienceGym是由犹他大学研究团队开发的一套程序生成科学评测系统。与普通基准的核心区别在于,它不依赖任何真实数据集,而是从一个随机数字"种子"出发,自动生成完整的虚拟科研项目仓库和配套问答题。同一个种子每次生成的内容完全相同,因此可重复、无存储成本、规模理论上无限大,还能精确控制哪些问题"有答案"、哪些"没有答案",避免了传统基准中发表偏倚和AI先验知识干扰等问题。
Q2:AI模型在InfiniteScienceGym上的最大弱点是什么?
A:所有被测模型最突出的弱点是识别"无法回答"的问题。当数据不足以支撑某个结论时,正确做法是承认无法回答,但开源模型普遍倾向于硬编一个答案而不是认输,召回率低至40%左右。即使是表现最好的商业模型GPT-5.4和Claude Opus 4.6,识别无答案问题的召回率也不超过83%,整体准确率最高也只有44.8%,五个模型没有一个达到及格线。
Q3:为什么在InfiniteScienceGym测试中,调用更多工具比消耗更多token更重要?
A:因为高token消耗通常对应一种低效策略——把整个数据文件塞进对话窗口靠"肉眼"分析。这不仅浪费资源,还会干扰模型推理。而使用工具(尤其是Python代码执行)意味着模型先用少量token了解数据结构,再用程序精确完成计算,每一次工具调用都在缩小不确定性。实验结果清楚地显示,工具调用次数多的模型准确率更高,而token消耗多的模型准确率反而更低,GPT-5.4用最少的token和最多的工具调用取得了最高分。