蚂蚁与清华开源强化学习框架AReaL-boba，数学推理能力达SOTA水平_科技IT

蚂蚁与清华开源强化学习框架AReaL-boba，数学推理能力达SOTA水平

科技IT

2025 04-02 03:26:17

3月31日，蚂蚁集团与清华大学联合推出开源强化学习训练框架AReaL-boba，研发团队采用该框架训练出数学推理能力达到业内领先水平（State-of-the-Art，SOTA）的7B推理模型，并以极低成本实现了32B推理大模型的高效复现。AReaL-boba的框架代码、训练数据、模型权重及技术文档已在inclusionAI社区全部开源，开发者可直接复现SOTA推理模型。

AReaL（全称Ant Reasoning RL）是国内首个完整开源的强化学习(Reinforcement learning，RL)项目。今年2月，AReaL发布了第一个开源版本AReaLv0.1，首次发布包含了基于AReaL系统的可复现实验，涵盖1.5B和7B参数的大推理模型，并在多种计算预算下进行了验证。一个月后，AReaLv0.2版（即AReaL-boba）便在上个版本上完成了重要更新，再次证明了RL Scaling的价值，加速了推理模型的能力发展。

AReaL-boba通过优化训练流程，显著提升了推理模型训练速度。相比上一代框架，其在1.5B、7B、32B模型上的训练速度分别提升35%、60%、73%。该框架支持大规模分布式训练，例如使用128张H800 GPU可在1天内完成1.5B模型训练，256张H800 GPU可在2天内完成7B模型训练。此外，AReaL-boba集成了被顶尖大模型Grok2采用的高性能推理框架SGLang，进一步提升了推理效率。

AReaL-boba的7B模型基于Qwen-R1-Distill-7B进行强化学习训练，在AIME 2024和2025测试中分别取得61.9分和48.3分，刷新了开源社区记录。通过数据蒸馏技术，AReaL-boba低成本高效复现了接近QwQ-32B模型的效果（AIME 2024得分78.8分，接近QwQ-32B的78.9分）。

AReaL-boba的推出标志着强化学习训练框架在效率、性能和可扩展性上的突破，也为开发者提供了高效、低成本的解决方案，加速了推理模型的发展。

据了解，蚂蚁和清华组成的AReal研发团队计划持续开源训练代码、数据集及流程，并将优化异步训练、吞吐性能，升级数据集和算法，进一步提升框架能力。

About
Latest Posts

mingzhi

Latest posts by mingzhi (see all)

蚂蚁与清华开源强化学习框架AReaL-boba，数学推理能力达SOTA水平 – 2025年4月1日
联想刘军：人智共创，领跑AI普惠新时代 – 2025年4月1日
让医药走出国门：东软助力构建中国-东盟医药区域集采平台 – 2025年3月31日

The End

免责声明：本文内容来源于第三方或整理自互联网，本站仅提供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。

合作/投稿/投诉联系：

微信nvshen2168

关注我们

微信nvshen2168

本站内容来源于第三方或整理自互联网，本站仅提供展示，不拥有所有权，不代表本站观点立场，也不构成任何其他建议，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容，请及时联系我们进行处理。
Copyright © 2099 视界齐闻网 | 备案号：苏ICP备2023036119号-3

|—— TXT地图 | 网站地图