
有史范围最大的开源科学推理后锻真金不怕火数据集来了!亚博官方网站
上海创智学院、上海交通大学(GAIR Lab)发布MegaScience。该数据集包含约125 万条问答对过火参考谜底,平淡隐藏生物学、化学、诡计机科学、经济学、数学、医学、物理学等多个学科规模,旨在为通用东谈主工智能系统的科学推理才略锻真金不怕火与评估提供坚实的数据。

实考据明,基于 MegaScience 锻真金不怕火的模子在科学推理任务中显贵优于相应的官方 Instruct 模子。此外,MegaScience 展现出精熟的可膨大性:跟着基础模子范围的升迁,MegaScience 所带来的性能增益愈加显贵。

当今,该团队已齐全开源 MegaScience 过火整个有关组件,包括数据构建经过源码、科学推理评估系统、数据集执行以及基于该数据集锻真金不怕火的模子,生机为磋商社区提供系统化、高质料的资源复旧,进一步鼓吹通用东谈主工智能在科学规模的磋商与应用。

△MegaScience 的复兴长度偏低且性能最优,竣事了即高效又灵验

为什么需要 MegaScience?
尽管如 o1 和 DeepSeek-R1 等先进推理模子已在数学和编程任务上表现出接近以致超越东谈主类群众的水平,但由于科学推理规模永久短缺大范围高质料的锻真金不怕火数据复旧,刻下主流模子在科学推理任务中的表现仍显贵滞后于数学和代码规模。
已有的科学推理后锻真金不怕火数据集还存在一些未科罚的挑战:
弗成靠的 Benchmark 评估:好多开源科学基准罗致选拔题款式,该款式天然易于竣事,却过度简化了科学推理的复杂性。因此,科学规模的后锻真金不怕火数据集不时沿用此款式,以保持数据漫衍的一致性。联系词,作家的实验标明,锻真金不怕火于此类数据的模子在选拔题评估上表现优异,但在触及诡计任务时表现显豁欠安,反应出基准评估收尾与真是推理才略之间存在脱节。
去欺凌处理不严谨:现存的去欺凌期间频频依赖于 n-gram 或向量相似度来识别并移除可能的 Benchmark 数据清楚。这些方法本质上较为脆弱,容易被措辞或结构上的微细变动所逃匿,难以信得过保证基准评估的刚正性。作家发现,宽阔已有科学规模的后锻真金不怕火数据集与评估基准之间存在显可贵合。
参考谜底质料低下:好多科学数据集结的参考谜底来源弗成靠,来去往自聚集持取或由废话语模子奏凯生成。联系词,跟着聚集内容日益被 AI 生成文本充斥,加之 LLM 本人容易产生幻觉,这两种神气的可靠性握住下跌,使得难以确保谜底的事实准确性与科学严谨性。
表层化的常识蒸馏:一种常见作念法是从大型推理模子中蒸馏数据,举例奏凯罗致 DeepSeek-R1 生成较长的想维链。尽管该方法直不雅且易于实施,但其本质上仍停留在表层。所生成的 CoT 数据通常存在"过度想考"问题,这也在锻真金不怕火(尤其是小模子锻真金不怕火)和推理效劳方面带来挑战。这种浅层操作贬抑了常识移动的原则性、效劳及泛化才略的进一步发展。

为应付上述挑战,MegaScience团队提议了一套系统性的科罚决议,包括以下四个纰谬部件:
构建科学推理评估体系:团队开端开发了一个面向科学推理任务的评估框架,涵盖 15 个具有代表性的基准测试(Benchmark),题型包括选拔题、诡计题、判断题与简答题,隐藏平淡任务类型,从而竣事对模子科学推理才略的全面与可靠评估。
基于大模子的数据去欺凌处理:针对数据欺凌问题,作家对所提议的数据集及所罗致的 baseline 数据集均实施了严格的大模子去欺凌经过。实验标明,经过该方法处理后,其他现存开源数据集在相通基准下性能显豁下跌,进一步考据了该去欺凌战略在升迁评测真是度方面的灵验性。
高质料数据源构建战略:在数据构造方面,团队以大学阶段的专科教科书行为主要信息来源,系统采集问答内容。比拟传统的聚集问答资源,教科书内容具有更高的巨擘性和参考谜底的准确性,为数据质料提供了坚实保险。
优化的数据精真金不怕火神气:不同于以往使用推理模子进行蒸馏的作念法,作家选拔通过聊天模子对初步抽取的数据进行精真金不怕火。该方法在升迁数据话语畅通性与问答逻辑一致性的同期,幸免了长推理链方法常见的效劳瓶颈问题,从而竣事了高质料与高效劳的有机联接。
具体来说:
MegaScience 团队开端提议了 TextbookReasoning,这是一个面向大学阶段科学推理的开源后锻真金不怕火数据集,包含可靠参考谜底,数据源来自近 12 万本大学课本,共构建了 65 万个涵盖物理、生物、化学、医学、诡计机科学、数学和经济学等多个规模的科学推理问题。具体而言,该数据构建经过包括课本数字化、双重问答对抽取、去重、问答对精真金不怕火、过滤与基于大模子的去欺凌处理。该经过竣事了全自动化,借助废话语模子大幅升迁了高质料数据集的可膨大获取才略。
为进一步鼓吹科学推理主张的开源后锻真金不怕火数据构建,该团队进而提议了 MegaScience,这是一个由高质料开源数据集构成的大范围搀和数据集,包含 125 万条数据。其开端采集多个公开数据集,并针对不同数据筛选战略进行系统的消融实验,从而为每个数据集筛选出最优子集。此外,除 TextbookReasoning 外,还为所寥落据集注重了迟缓的解题过程。
为了复旧开源社区在科学推理才略上的发展,该团队假想并开源了一个隐藏平淡学科与多种题型的评估框架,涵盖 15 个代表性 Benchmark。该框架不仅便于复现实验收尾,还通过斡旋的评测法式竣事模子间的公谈比较。还假想了完善的谜底索取战略,以确保最终评估研究的准确性。
实验标明,所构建数据集不仅竣事了高效的锻真金不怕火与推理经过,同期也在科学规模取得了开端性能。该团队进一步在 MegaScience 上锻真金不怕火了 Llama3.1、Qwen2.5 与 Qwen3 系列基础模子,其在平均性能上优于官方 Instruct 模子,显贵鼓吹了开源社区在科学规模的发展。同期,MegaScience 在更大、更强模子上的效果更为显贵,表示出其在指示微调时具备精熟的膨大性上风。该团队将数据构建经过、评估系统、数据集与锻真金不怕火模子一起开源,以复旧科学推理磋商的接续发展。
TextbookReasoning 构建经过
该磋商团队提议了一套统统基于废话语模子自动化驱动的数据构建经过,用于构建大范围、具备高质料科学推理才略的数据集—— TextbookReasoning。该经过从约 12 万本大学及磋商生级别的课本中抽取并精真金不怕火生成悉数 65 万条问答对,全体经过包含五个阶段:

△TextbookReasoning 数据集构建经过图
1、竹帛采集与数字化处理
磋商者采集了悉数 12.8 万本涵盖多个科学规模的大学及以表层级课本,并使用 olmOCR 系统对其进行 OCR 处理,革新为结构化文本内容。为严格遵守版权法例,磋商团队联接规章匹配和废话语模子期间对竹帛版权信息进行了全面审查,并剔除了存在版权贬抑的竹帛。此外,该开源数据集均罗致 CC-BY-NC-SA-4.0 许可契约,严格贬抑交易化使用。
2、对偶问答对抽取
磋商者开端将每本课本内容按 4096 个 tokens 切分为文档片断,并针对每一学科假想了两种抽取模板:
高法式抽取:仅保留包含详备推理措施与解释的问答对;
低法式抽取:保留任何包含明确谜底的问题对。
使用 Llama3.3-70B-Instruct 对整个文档引申问答抽取,最终获取 94.5 万条原始问答对。

△每个学科的问答对抽取数目统计
3、问题去重
为了幸免冗余信息,磋商者罗致局部敏锐哈希(Locality-Sensitive Hashing, LSH)联接最小哈希(MinHash)期间,对整个问题进行语义级别的去重处理。
4、问答对精真金不怕火
磋商者使用 DeepSeek-V3 参考原始文档内容,对问答对进行内容精真金不怕火,并进一措施用 Llama3.3-70B-Instruct 识别短缺想维链的问题,之后使用 DeepSeek-V3 对其进行补全。此外,为确保数据质料,磋商者再次哄骗 Llama3.3-70B-Instruct 自动过滤存在逻辑矛盾或谜底伪善的低质料问答对。
5、基于大模子的问题去欺凌处理
为减少与现存评测基准访佛带来的锻真金不怕火欺凌,磋商者假想了一套大模子驱动的欺凌识别机制,经过如下:
a. 关于每个问题,先通过 BGE-large-en-v1.5 引申向量相似度搜索,从 15 个评测系统隐藏的整个 benchmark 中检索出相似度最高的前 5 个问题;
b. 再使用 Llama3.3-70B-Instruct 对候选问题进行逐个比对,判断是否存在语义高度相似的欺凌项;若任一双被判定为重复,则将该问题秀雅为欺凌样本并从锻真金不怕火集结剔除。

MegaScience 构建经过
为进一步促进开源科研推理后锻真金不怕火数据集的发展,作家系统性地整合了多个已有公开数据源,并长远探索了多种数据筛选战略与解题标注方法。最终构建了一个涵盖 125 万个高质料问答对的搀和数据集MegaScience。该数据集的构建经过包括四个纰谬措施,确保了数据的各样性、准确性与适用性。

△数据集构建经过
1、公开数据集采集
作家中式了 NaturalReasoning、Nemotron-Science 以及 TextbookReasoning 三个数据集行为开动语料来源,构建原始数据集结。
2、问题去重与去欺凌
为提高数据质料,作家在 NaturalReasoning 和 Nemotron-Science 数据集上应用了与 TextbookReasoning 相通的去重战略,以及基于废话语模子的问题去欺凌处理,从而摒除重复项与欺凌问题。
3、数据筛选
作家提议了 3 种数据筛选期间:
(1)基于复兴长度筛选:作家使用 Qwen2.5-72B-Instruct 对问题进行谜底标注,并保留那些生成复兴最长的问题。
(2)基于问题难度筛选:由于高难度问题关于升迁模子推理才略具有蹙迫敬爱,作家提议了一套两阶段的难度评估与筛选方法:
a. 参考谜底标注:
关于 TextbookReasoning 数据集,作家使用 Llama3.3-70B-Instruct 为每个问题生成高质料的参考谜底;
关于 NaturalReasoning,则奏凯使用其官方提供的参考谜底;
关于 Nemotron-Science,则从 DeepSeek-R1 的模子输出中的转头段落行为参考谜底。
b. 难度评估:作家罗致 Qwen2.5-7B-Instruct 对每个问题生成 16 个候选复兴,并哄骗 Qwen2.5-32B-Instruct 对这些复兴进行基于参考谜底的 0 – 10 分打分,得分法式斟酌复兴的准确性与齐全性。最终将平均得分行为该问题的难度研究。得分越低代表问题越具挑战性。作家剔除了平均得分高于 9 的过于浅易问题以及低于 1 的高噪声问题。
(3)立时采样筛选:立时选拔问题。

△3 种数据筛选方法在每个数据集上的效果
关于每个数据集,作家开端罗致难度选拔方法筛选出 n 个样本,并将复兴长度筛选与立时选拔的方法中所选样本数目也设为 n,以确保公谈对比。随后,作家在 Qwen2.5-7B 模子上进行有监督微调,以选出每个数据集上最优的数据选拔战略。
在 NaturalReasoning 数据集上,立时选拔效果最好;而在 Nemotron-Science 上,难度选拔取得了最优性能。联系词,莫得任何一种数据选拔方法好像超越奏凯使用齐全 TextbookReasoning 所达到的效果,这标明该数据集结低质料样本少许。该发现复旧作家保留 TextbookReasoning 中一起样本。
4、解题措施标注
关于 TextbookReasoning,作家保留了其精真金不怕火后的解答。关于 NaturalReasoning,由于 Llama3.3-70B-Instruct 生成的原始复兴质料较低,作家罗致 DeepSeek-V3 对其进行迟缓解答的标注。关于 Nemotron-Science,DeepSeek-R1 即便濒临相对浅易的问题也会生成过于冗长的复兴,显贵裁汰了推理效劳。为应付这一问题,作家相通使用 DeepSeek-V3 对其进行迟缓解答的标注。随后,他们过滤掉超越 4096 个 token 的复兴,从数据集结剔除了约 8 千条样本。

△MegaScience 构建过程数目变化,DC 暗示数据去欺凌,DS 暗示数据筛选 MegaScience 评估框架
为升迁评估过程的可靠性、可复现性与公谈性,作家提议了一个开源的科学推理评估框架——Language Model Open Science Evaluation。该框架涵盖了 15 个具有代表性的科学推理基准任务,涵盖多种类型的问题体式,旨在全面评估话语模子在科学推理方面的才略。

△MegaScience 评估框架所触及 Benchmark 列表
该评估系统有如下本性:
复旧 Instruct 模子与 base 模子的评估;
易于集成新的评测基准与建设;
复旧多节点与多 GPU 并走运行,竣事对多个模子、基准和任务的可膨大评估;
提供全面的实例级输出数据,复旧对模子预测收尾的细粒度分析。
作家还针对谜底抽取进行了优化,谜底抽取在评估过程中至关蹙迫,因为抽取的准确性会显贵影响全体收尾。好多科学评估方法仅索取位于 boxed{} 中的内容,不时忽略未罗致该款式的复兴,并将这些款式伪善伪善地归因于准确率的下跌。为了升迁抽取精度,作家假想了一套全面的基于规章的方法,针对不同类型的问题进行谜底抽取。谜底抽取方法罗致两阶段经过:(1)识别暗示最终谜底存在的提醒短语;(2)从各样款式中索取具体的谜底内容。此外,关于选拔题,要是无法奏凯抽取选项标签,该系统还会在选项内容中进行匹配,以细目对应的选项标签。
实验效果

作家开端在 Qwen2.5-7B-Base 模子上锻真金不怕火了 TextbookReasoning 与 MegaScience 两个数据集,并将其与现存的科学推理类数据集进行了系统对比。收尾标明,这两个数据集在多个评测研究上均达到了刻下开源社区中的最优性能。此外,MegaScience 在科学推理任务上的表现也超越了 Qwen2.5-7B 官方发布的 Instruct 模子。

为了进一步解说该数据集的灵验性,作家在 Llama3.1,Qwen2.5,Qwen3 系列基座模子上罗致 MegaScience 进行了微调,与其官方版 instruct 模子进行了对比,得出了以下敬爱的论断:
冲破科学规模的性能瓶颈:在锻真金不怕火中引入 MegaScience 显贵升迁了不同模子家眷和范围下的性能。经过 MegaScience 锻真金不怕火的 Qwen2.5-7B、一起 Qwen3 系列模子以及 Llama3.1-8B,在平均性能上均大幅超越其官方 Instruct 版块。这种在多种基础模子上的平淡升迁标明,MegaScience 好像灵验鼓吹科学规模性能的前沿发展。
更大更强模子的可膨大性上风:MegaScience 关于更大范围和更强才略的模子展现出更显贵的效果,标明 MegaScience 指示微调在模子膨大性上具有潜在上风。在 Qwen2.5 系列中,产生了非单调变化趋势:尽管 Qwen2.5-1.5B-Instruct 相较于 Qwen2.5-1.5B-MegaScience 逾越 2.99%,但这一差距在 3B 模子上显贵松开至仅 0.15%,而在 Qwen2.5-7B 上则发生回转,MegaScience 版块相较于 instruct 版块竣事了 2.21% 的升迁。此外,性能更优的 Qwen3 系列在整个范围下,MegaScience 版块均超越官方 Instruct 模子,且性能差距跟着模子范围的加多而渐渐扩大。
数学推理才略依赖于模子容量:作家发现数学才略的升迁尤为依赖于弥散的基座模子才略,惟一在更强的基础模子(如 Qwen2.5-7B 和 Qwen3-8B)中,MegaScience 在数学推理任务上能力超越官方指示微调模子。作家意象,这一选拔性升迁源于其数据集结数学题目的高难度特征,其中好多问题触及大学本科及以上水平的专科数学见解。这类复杂的数学推理任务似乎条件模子具备一定的才略门槛,方能从该类具有挑战性的锻真金不怕火数据中灵验学习并受益。
异日瞻望
尽管刻下使命东要聚焦于有监督微调,但尚未触及基于强化学习的科学推理磋商。值得一提的是,MegaScience 提供了高质料且可靠的参考谜底,这些谜底可行为强化学习框架中生成精准奖励信号的监督依据。这一本性为社区提供了精熟的磋商基础,引发进一步探索强化学习在科学推理任务中的后劲,看其是否能在已有有监督锻真金不怕火效果的基础上进一步升迁模子的推理才略。
该数据集罗致了短想维链。一个颇具出路的磋商主张是,在此基础上引入强化学习,进一步学习更复杂、篇幅更长的推理链条,并探索该战略是否能以更高效的神气超越传统中间锻真金不怕火阶段所得模子的性能表现。若磋商标明这一主张可行,将为强化学习在话语模子中的膨大提供新的机会,也讲明基于 MegaScience 的有监督微调可成为中间锻真金不怕火的高效替代旅途。
鉴于诡计资源的贬抑,作家当今尚未开展对链式推理压缩战略的系统磋商。异日可进一步探讨,是否将较长的 CoT 推理压缩为更为肤浅的体式,好像在与 MegaScience 终点的响应长度下获取更优的性能表现。
论文标题:MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning
论文集结:https://arxiv.org/abs/2507.16812
开源数据集 & 模子:https://huggingface.co/MegaScience
数据处理代码:https://github.com/GAIR-NLP/MegaScience
评估系统代码:https://github.com/GAIR-NLP/lm-open-science-evaluation
一键三连「点赞」「转发」「防卫心」
迎接在批驳区留住你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见亚博官方网站
XINWEN
在全球经济的大舞台上,中国和好意思国无疑是最为进犯的两颗棋子,它们的经济变化如同澎湃的海流,深远影响着所有这个词这个词世界经济的阵势。而算作亚洲重要经济体的日本,其经济推崇雷同值得关爱。接下来,咱们将深入分析 2024 年这三个国度的财政收入景况。 好意思国财政:赤字高企的难题 2024 财年,好意思国的财政收入为 4.9 万亿好意思元,但开销却失控般飙升至 6.7 万亿好意思元。收入与开销的差距导致财政赤字像澎湃的海潮一样松弛 1.8 万亿好意思元,达到 1.833 万亿好意思元,比前一年激
创作不易,可爱我的作品,请巨匠点点护理,给个复旧,拜谢。 最近,连合国安管待的会场几乎成了“擂台”。1月初,好意思国在会上对中国大放厥词,试图甩锅抹黑,说中国抓政鲜核问题上不手脚、不负株连。可好意思国的嘴皮子功夫能诱拐谁?中国速即就给回怼且归了。说到底,这场争吵背后,如故好意思方想通过国外形状打压中国,给我方找存在感。 事情是这样的。1月初,连合国安管待召开了一场公开会,主题是朝鲜的核问题。这本是一个连络半岛形状和平与矫健的会议,但好意思国却最初开火,把锋芒瞄准了中国。好意思国的酷爱很简便:半
中日印三个国度的经济动态,最近成了大家关怀的焦点。一个是也曾的制造业巨头日本,经济增速却越来越疲软;一个是中国,稳坐寰宇第二经济体宝座,并在大家规模内开疆展土;另一个则是印度,靠着东谈主口红利和互联网产业的迅猛发展,GDP增速让东谈主刮目相看。有东谈主瞻望,到2025年印度的GDP总量可能会跳动日本,成为大家第三大经济体。这听起来像一场经济规模的“三国小说”,但背后荫藏的逻辑却耐东谈主寻味。印度的追逐之路、日本的下滑原因、中国的稳步崛起,皆是值得深挖的故事。 GDP数字背后,可不单是是节略的名
1月15日,不雅山湖区军地蚁合立功军东谈主所在91959军队为荣立“三等功”的现役军东谈主郭慕翔家中送去立功喜报和军队定制牌匾亚bo体育网,抒发党委、政府和军队对立功军东谈主家属的关怀和致意,让军东谈主家属分享这份荣耀和欢乐。 喜庆的锣饱读声、醒见识横幅、荣耀的牌匾,送喜报部队所有这个词锣饱读喧天,吵杂越过,仿佛答复着军东谈主的荣耀和业绩,也诱骗了左邻右里纷繁驻足。 在郭慕翔家中,慰问组为郭慕翔父亲和母亲披挂上绶带并与其亲切持手,潜入交谈,耀眼了解立功军东谈主在军队服役情况和家庭出产生计情况,
“蝎”式反坦克自行火炮 第二次天下大战收尾后,好意思国部队累积了大王人在空降作战中的阅历。在“霸王活动”中(诺曼底登陆,1944年6月6日)中,共动用了突出13000名伞兵,约4000名士兵则通过滑翔机登陆。近似数目的部队还参与了1944年9月的“阛阓花坛”活动。 其中,最为训诲的“蝎”原型车之一尤为引东谈主真贵。请防范,炮塔盾牌和炮口制退器与坐褥型车辆有所不同。 阐述这些活动的阅历阅历,得出一个紧要论断:空降部队需要一种大致提供火力救助、灵验抗击敌方装甲部队(包括最重型的坦克)的火炮系统。在