阿里开源新模型：超GPT-4o，数学能力全球第一！

2024-08-09 09:04:21

导读阿里巴巴开源了最新数学模型Qwen2-Math，一共有基础和指令微调两种版本，包括1.5B、7B和72B三种参数。根据阿里在主流数学基准测试显示，Qwe...

阿里巴巴开源了最新数学模型Qwen2-Math，一共有基础和指令微调两种版本，包括1.5B、7B和72B三种参数。

根据阿里在主流数学基准测试显示，Qwen2-Math-72B指令微调版本的性能超过了GPT-4o、Cloude-3.5-Sonnet、Gemini-1.5Pro等知名闭源模型，就连Meta最新开源的超强模型Llama-3.1-405B也照样拿下。

也就是说，Qwen2-Math-72B是目前全球最强的数学推理大模型。不知能否挑战一下前不久谷歌刚获得国际数学奥林匹克竞赛银牌，仅差1分获得金牌的双混合模型AlphaProof和AlphaGeometry2（这两个模型还处于研究阶段）。

开源地址:https://huggingface.co/Qwen

Github:https://github.com/QwenLM/Qwen2-Math?tab=readme-ov-file

基础模型

Qwen2-Math的基础模型使用Qwen2-1.5B、7B和72B进行初始化，然后在精心设计的高质量数学专用语料库上进行预训练，该语料库包含大规模高质量的数学网络文本、书籍、代码、考试题目以及由 Qwen-2模型合成的数学预训练数据。

阿里在在三个英语数学基准 GSM8K、Math 和MMLU-STEM 上评估了Qwen2-Math 基模型。同时评估了三个中国数学基准 CMATH，GaoKao Math Cloze 和 GaoKao Math QA，所有评估均使用 Few-shot CoT 方式。

结果显示，Qwen2-Math基础模型的性能大幅度超越了Llama-3.1-8B/7B/405B全系列。

指令微调模型

在开发指令微调模型方面， Qwen2-Math-72B 训练的模型采用了密集的奖励信号与二元信号的结合，二元信号在此起到指示模型是否正确回答问题的作用，类似于分类任务中的标签，有助于模型在训练过程中进行自我校正。

结合信号后，模型通过拒绝采样方法构建了SFT数据集。拒绝采样是一种蒙特卡罗方法，通过在更大范围内按照均匀分布随机采样，然后接受或拒绝采样点来估计复杂问题的概率分布。

这种方法在处理复杂概率分布时特别有用，因为它不要求分布的概率分布函数可逆，从而解决了一些分布难以直接采样的问题。

随后使用GRPO强化学习算法进行优化，这是近端策略优化的一种变体，通过迭代过程进行训练，其中奖励模型会根据策略模型的输出不断更新，以确保策略的持续改进。

阿里使用英语和中文的数学基准评测对Qwen2-Math-72B指令微调模型进行了综合评估。还使用了更有难度的OlympiadBench、CollegeMath、高考（GaoKao）、AIME2024、 AMC2023以及中国2024年高考/中考数学题进行了测试。

结果显示，其数学推理性能大幅度超越了GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B等知名开闭源模型。阿里表示，Qwen2-Math已经能解答一些数学竞赛难题，包括多道IMO竞赛题。

在预训练和微调数据集上阿里都进行了去污染处理，特别是清洗了对GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math等知名基准测试数据集有重叠的正例污染样本，以保证测试效果的准确性、公平性。

目前，Qwen2-Math模型仅支持英文，但阿里表示会很快推出中英双语版本，帮助更多的用户开发生成式AI应用。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

上一篇:独立开发变现周刊（第144期）：一个在线签名工具年收入24万美元

下一篇:最后一页

综合头条

阿里开源新模型：超GPT-4o，数学能力全球第一！

本周【综合头条】阅读排行

本周热门推荐阅读

南美洲有哪些国家地图 ...

财联社8月9日电，东京电...

日版苹果和国行有什么区...

怎样开网店赚钱快（网店...

言师采药去全诗（言师采...

徐徐大作战下载（徐徐大...

国药股份澄清：与山西奥...

《街头霸王6》韩蛛俐Cos...

哈马斯哀悼遇袭身亡的真...

全球市场动荡助推美国货...

真的建议女性练肌肉！好...

送女孩子满天星怎么写寄...

三伏一共有多少天? 三伏...

快递送到多久才会显示已...

董宇辉称接受不了全网声...

综合头条

阿里开源新模型：超GPT-4o，数学能力全球第一！

猜你喜欢

最新文章

本周【综合头条】阅读排行

本周热门推荐阅读