34B参数量超越GPT-4！「数学通用大模型」MAmmoTH开源：平均准确率最高提升29%

投稿号 • 2023年9月19日 18:15 • 热点 • 阅读 158

【新智元导读】数学通才「猛犸」模型给开源语言模型带来了「推理春天」，面对GPT-4都有一战之力!

数学推理问题是语言模型绕不过的痛点，在各种黑科技的加持下，开源模型的推理性能依然不够看。

最近，滑铁卢大学、俄亥俄州立大学、香港科技大学、爱丁堡大学的研究人员联合开源了一个专为「通用数学问题」定制的大模型MAmmoTH和一个指令调优数据集MathInstruct.

论文链接:https://arxiv.org/pdf/2309.05653.pdf

项目链接:https://tiger-ai-lab.github.io/MAmmoTH/

MathInstruct由13个具有中间原理的数学数据集编译而成，其中6个为新数据集，混合了思想链（CoT）和思想程序(PoT)，并确保覆盖了广泛的数学领域。

CoT和PoT的混合不仅可以释放工具使用的潜力，而且还允许模型针对不同的数学问题进行不同的思维过程。

因此，MAmmoTH系列在所有尺度上的9个数学推理数据集上的表现大大优于现有的开源模型，平均准确率提高了12%至29%。

其中MAmmoTH-7B模型在MATH（竞赛级数据集）上的准确率达到了35%，超过了最好的开源7B模型(WizardMath)25%，MAmmoTH-34B模型在MATH上的准确率达到了46%，甚至超过了GPT-4的CoT结果。

数学推理领域新王:MAmmoTH

在数学推理任务上，开源和闭源的大型语言模型（LLM）之间存在巨大的性能差距，目前基准数据集上的sota仍然是GPT-4，PaLM-2和Claude等闭源模型，其他开源模型如Llama，Falcon和OPT等仍然远远落后。

为了弥补性能差距，主要的研究方法有两类:

1. 如Galactica，MINERVA等模型，继续使用数学相关的网络数据对语言模型进行训练，可以提高模型的通用科学推理能力，但计算成本会更高;

2. 如拒绝采样微调（RFT）和WizardMath等，使用特定领域数据集对模型进行微调，虽然可以提高领域内性能，但无法适用于更广泛的数学推理任务。

在解决数学问题时，现有方法通常会采用思维链（CoT）方法引导语言模型循序渐进地用自然语言描述来解决数学问题。

虽然在大多数数学主题下表现出很好的通用性，但在需要精确或复杂的数学计算、算法推理的问题下（如求解二次方程根，计算矩阵特征值）表现不佳。

相比之下，思维程序（PoT， Program-of-Thought）方法和PAL利用外部工具(即Python解释器)大大简化了数学求解过程，将计算过程卸载到外部Python解释器，以解决复杂的数学和算法推理过程(例如，用sympy求解二次方程或用numpy计算矩阵特征值)。

然而，PoT在处理更抽象的推理场景方面有所欠缺，尤其是在没有内置API的情况下，常识推理、形式逻辑和抽象代数的推理能力会更差。

方法概述

研究人员的目标是编制一个高质量、多样化的数学指令调整（instruction-tuning）数据集列表。

1. 覆盖不同数学领域和复杂度

更全面的数据集可以让模型接触到多样化的数学知识，提升模型的多功能性。

研究人员将选择范围缩小到几个被广泛采用的高质量数据集，包括GSM8K、math、AQuA、Camel和TheoremQA.

还可以注意到，现有的数据集缺乏对大学水平的数学知识的覆盖，如抽象代数和形式逻辑，所以研究人员选择使用GPT-4来合成TheoremQA问题中的思维链（CoT）原理，利用网络上找到的数个种子样例，通过自我指导(self-instruct)创建问题和CoT的数据对。

2. 混合CoT和PoT

现有的研究方法大多只关注CoT，并且数据集中也只包含有限的解题思路，导致CoT和PoT的数据量十分不均衡。

为了解决该问题，研究人员利用GPT-4来补充选定数据集的PoT解题思路，通过对比合成程序的执行结果以及人工标注的答案进行过滤，确保生成数据的高质量。

遵循上述方法，最后得到了26万条指令、回复数据对，涵盖了广泛的核心数学领域，如算术、代数、概率、微积分和几何等，混合了CoT和PoT基本原理，并提供多种语言、多个难度级别的数据，足以证明数据集的高品质和独特性。

训练步骤

研究人员统一了MathInstruct中的所有子集，将指令数据集的结构标准化为Alpaca模型的格式，使得模型无需考虑原始数据集的格式，在微调阶段统一处理数据即可。

研究人员选择开源模型Llama-2和Code Llama作为基础模型，在7B、13B、34B和70B尺寸的模型上进行微调。

实验部分

评估数据集

研究人员选择了不同数学领域下的样本，对模型的通用数学推理能力进行评估:

领域内数据集包括GSM8K，MATH，AQuA-RAT，NumGLUE;领域外数据集包括SVAMP，Mathematics，SimulEq，SAT-Math和SimulEq，涵盖了小学、高中和大学水平的数学问题，部分数据集甚至包括形式逻辑和常识推理。

问题类型为开放式问题和多选题，其中开放式问题（如GSM8K、数学）采用PoT解码，因为大多数问题都可以由程序解决;多项选择题(如AQuA、MMLU)采用CoT解码。

CoT解码不需要触发词，PoT需要触发短语「让我们写个程序来解决这个问题」（Let’s write a program to solve the problem）。

实验结果

总的来说，MAmmoTH和MAmmoTH-Coder在不同的模型尺寸上均优于SoTA模型，并且在领域外（OOD）数据集上的增益要显著优于领域内(IND)数据集，展现出了该模型作为数学通才模型的潜力，甚至在几个数据集上，MAmmoTH-Coder-34B和MAmmoTH-70B甚至超过了闭源模型。

在领域内数据的评估，MAmmoTH模型的主要竞争对手是WizardMath和Platypus，其中WizardMath的训练深度依赖于GSM8K和MATH数据集，Platypus在更广泛的文本和数学推理数据集上对LLM进行微调。

相比之下，MAmmoTH实现了全面的改进，并且更擅长解决复杂数学问题，相比WizardMath（MATH数据的sota）的增益最高超过了25%

在领域外数据评估中，主要竞争模型依然是Platypus，不过MAmmoTH可以实现比领域内数据更高的性能提升，展现出对未知数学问题的通用能力。

值得注意的是，MAmmoTH-7B还将WizardMath-7B在MMLU-Math上的CoT性能大幅提高了9%，其中包含大量没有在训练数据集中涵盖的主题。

不同基础模型之间的对比

可以发现，Code-Llama作为基础模型时的效果始终优于Llama-2，尤其是在领域外数据集上，二者之间的性能差异甚至达到了5%，其中MAmmoTH-Coder（34B）在领域外数据集上的平均性能实际上高于MAmmoTH(70B)

研究人员认为，MAmmoTH-Coder从Code-Llama的持续代码训练中受益匪浅，不仅增强了PoT能力，还提高了Llama的通用推理技能。

参考资料:

https://tiger-ai-lab.github.io/MAmmoTH/

声明：本文内容整理自网络，观点仅代表原作者本人，投稿号仅提供信息发布服务。如有侵权，请联系管理员。

0 0

关于作者

投稿号

36.9K 文章

0 评论

0 粉丝

这个人很懒，什么都没有留下～

128G版iPhone 15 Pro视频录制功能缩水：256G及以上版本才是满血旗舰

上一篇 2023年9月19日 18:15

开发者“炫技”用表格开发游戏，具有实时性！网友：表格还能这样玩？！

下一篇 2023年9月19日 18:15

热点
六人餐桌尺寸长方形(六人餐桌尺寸)
本文主要讲的是六人餐桌尺寸，以及和六人餐桌尺寸长方形相关的知识，如果觉得本文对您有所帮助，不要忘了将本文分享给朋友。六人餐桌尺寸是多少六人餐桌尺寸是多少六人餐桌尺寸是多少，每天幸福的时候就是一家人其乐融融的围坐在餐桌上吃饭，…
投稿号
热点 2023年5月14日
1530
热点
八万以内的suv前十名(7万左右的suv车排行榜)
7万能买到的七座SUV谁才是最佳的选择在7万元价格左右的七座车型当中，最值得推荐的几款就是五菱宏光，宝骏以及长安。就目前市面上的评价来讲，这三个厂家所生产出来的七座汽车是目前国内口碑较好的。万左右的SUV比较好的有：宝骏5长安…
投稿号
热点 2023年7月22日
1210
热点
“临时儿女”从业者月入过万凭本事吃饭的工作不用羡慕
近年来，“临时儿女”这一行业越来越受到关注。这些从业者通常是为了帮助独居老人或者忙碌的父母照顾孩子而提供服务的。他们的工作内容包括陪伴、照顾、教育和娱乐等方面。然而，这个行业也有一些从业者月入过万的现象。最近，一位95后女生章章…
投稿号
热点 2023年8月30日
1370
热点
花花洗澡全国人民都知道了全国顶流女星偶尔洗个澡怎么了
7月28日，成都大运会拉开帷幕。大运会期间，饲养员为大熊猫“花花”洗澡，“白到发光”的“花花”更可爱啦。有网友放出了对比图片：网友评论：和花，雌性大熊猫，网友们亲切地称呼它“花花”。2020年7月4日，和花与双胞胎弟弟和叶出…
投稿号
热点 2023年8月1日
1380
新媒体运营的6大核心（新媒体运营方案）

要明白，运营方案不是给公司作秀看的，而是具体的实际的可操作的方案。为什么现在新媒体运营被公司认为越来越鸡肋，很大一部分是一些运营在用网上套的各种模板糊弄公司，让公司觉得新媒体只是纸上谈兵。今天笔者来给大家讲一讲怎么写运营方案。 …
投稿号
2022年10月12日 • 热点
2640
热点
男子在四姑娘山旅游遇难孕妻痛哭四姑娘山是神山当地人都敬畏
她的丈夫于7月23日在四川阿坝四姑娘山游玩时失联。7月26日，秦女士向记者证实，其丈夫已确认遇难，遗体在四姑娘山冰川附近被发现。秦女士介绍，她和丈夫岳先生(化姓)现定居武汉，她已怀有八个月身孕。丈夫一直是家里的顶梁柱，从事销售方…
投稿号
热点 2023年7月26日
1070
热点
你不知道的冷知识-萨摩亚篇
萨摩亚独立国位于波利尼西亚群岛中部。它的建国历史始于1250年，是南太平洋最早文明的发源地之一。然而，随着19世纪德国、英国、美国的不断入侵和殖民，传统文化遭到严重破坏。它的面积差不多有3000平方公里，相当于我国中部的一个小区。…
投稿号
热点 2024年1月8日
1060
热点
自己手机电池最大容量是多少吗（华为手机电池寿命查询详解）
HarmonyOS 2.0发布后，开启了万物互联的智能生活。解锁了许多新入口，增加了很多实用的功能，手机电池也有新变化~升级到最新版本HarmonyOS 2.0后，可以查看手机电池最大容量，随时了解电池性能！手机电池最大容量是什…
投稿号
热点 2022年10月5日
1790
热点
微信支付到底收不收费？官方最新回应
华夏时报记者付乐冉学东北京报道近期全国多家高校发布公告，7月1日起开始暂停使用微信支付。 6月29日，微信支付方面在接受《华夏时报》记者采访时称，针对校园内非盈利性支付场景（学杂费、生活服务等场景）会持续保持零费率的优惠政…
投稿号
热点 2023年7月5日
1170
热点
东方甄选小作文事件来龙去脉具体怎么回事(东方甄选山西小作文)
近日，东方甄选的“小作文”事件还在持续发酵，网上依然争议不断。新东方创始人俞敏洪在社交平台发布视频声明表示，“本来是公司内部的一件小事情，因为处理不当变成了汹涌澎湃的舆情。现在很多网友对该事件还不太了解，东方甄选小作文事件到底是怎…
投稿号
热点 2023年12月15日
1080

发表回复

登录后才能评论

34B参数量超越GPT-4！「数学通用大模型」MAmmoTH开源：平均准确率最高提升29%

关于作者

热点推荐

发表回复