蚂蚁与清华开源强化学习框架AReaL-boba,数学推理能力达SOTA水平

科技IT
2025 04-02 03:26:17
分享

3月31日,蚂蚁集团与清华大学联合推出开源强化学习训练框架AReaL-boba,研发团队采用该框架训练出数学推理能力达到业内领先水平(State-of-the-Art,SOTA)的7B推理模型,并以极低成本实现了32B推理大模型的高效复现。AReaL-boba的框架代码、训练数据、模型权重及技术文档已在inclusionAI社区全部开源,开发者可直接复现SOTA推理模型。

AReaL(全称Ant Reasoning RL)是国内首个完整开源的强化学习(Reinforcement learning,RL)项目。今年2月,AReaL发布了第一个开源版本AReaLv0.1,首次发布包含了基于AReaL系统的可复现实验,涵盖1.5B和7B参数的大推理模型,并在多种计算预算下进行了验证。一个月后,AReaLv0.2版(即AReaL-boba)便在上个版本上完成了重要更新,再次证明了RL Scaling的价值,加速了推理模型的能力发展。

AReaL-boba通过优化训练流程,显著提升了推理模型训练速度。相比上一代框架,其在1.5B、7B、32B模型上的训练速度分别提升35%、60%、73%。该框架支持大规模分布式训练,例如使用128张H800 GPU可在1天内完成1.5B模型训练,256张H800 GPU可在2天内完成7B模型训练。此外,AReaL-boba集成了被顶尖大模型Grok2采用的高性能推理框架SGLang,进一步提升了推理效率。

AReaL-boba的7B模型基于Qwen-R1-Distill-7B进行强化学习训练,在AIME 2024和2025测试中分别取得61.9分和48.3分,刷新了开源社区记录。通过数据蒸馏技术,AReaL-boba低成本高效复现了接近QwQ-32B模型的效果(AIME 2024得分78.8分,接近QwQ-32B的78.9分)。

《蚂蚁与清华开源强化学习框架AReaL-boba,数学推理能力达SOTA水平》

AReaL-boba的推出标志着强化学习训练框架在效率、性能和可扩展性上的突破,也为开发者提供了高效、低成本的解决方案,加速了推理模型的发展。

据了解,蚂蚁和清华组成的AReal研发团队计划持续开源训练代码、数据集及流程,并将优化异步训练、吞吐性能,升级数据集和算法,进一步提升框架能力。

  • About
  • Latest Posts
蚂蚁与清华开源强化学习框架AReaL-boba,数学推理能力达SOTA水平插图1Latest posts by mingzhi (see all)
  • 蚂蚁与清华开源强化学习框架AReaL-boba,数学推理能力达SOTA水平 – 2025年4月1日
  • 联想刘军:人智共创,领跑AI普惠新时代 – 2025年4月1日
  • 让医药走出国门:东软助力构建中国-东盟医药区域集采平台 – 2025年3月31日

The End
免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。