新智元报道
编辑:编辑部 NJY
【新智元导读】AIMO2最终结果出炉了!英伟达团队NemoSkills拔得头筹,凭借14B小模型破解了34道奥数题,完胜DeepSeek R1。
第二届人工智能数学奥林匹克竞赛(AIMO2)开奖了!
作为大赛顾问委员会的一员,陶哲轩激动地宣布了最新的结果——英伟达团队AI成功破解了34道题(共50题)。
这一次,50道测试题保持了与AIMO1相同「数值答案」形式基础上,进一步提升了「抗暴力破解」的难度。
这场由Kaggle主办的AI竞赛,参赛者必须使用开源LLM,在规定的有限算力条件下,用AI完成解题。
不过,目前最终成绩仍处于审核阶段,但现有数据已能确定大概率的胜者。
英伟达深度学习研究员分享,团队仅用了14B小模型,就拿下了比赛第一。
让人惊喜的是,微调后的14B竟然超越了405B的DeepSeek R1。
那么,他们是如何做到的呢?
英伟达团队摘桂冠,14B攻克34题
AIMO2每年都会评选5名获胜者,第一名便是英伟达团队——NemoSkills。
为了让大家更直观地对这个分数有一个认识:主办方使用了DeepSeek R1 405B在同一个测试数据上,进行了无限计算/时间的测试。
结果发现,R1-405B得分仅仅20分左右。
而英伟达微调出的14B模型,以更小参数规模,以及时间和硬件限制下拿下了惊人的34分。
这款模型便是Qwen-14B,在数百万合成数学测试集上进行了微调,能够支持CoT推理。
最大的亮点是高度优化的推理,仅使用了4个L4 GPU,在短短5小时内解决了50个问题中的34个。
目前,他们尚未提交解决方案,所以一些技术细节还无法窥探。
这个团队一共由7个人组成,他们分别是Christof Henkel、Darragh Hanley、Ivan Sorokin、Benedikt Schifferer、Igor Gitman、Shubham Toshniwal和Ivan Moshkov。
除了英伟达,还有哪些团队取得了精彩的表现?
清华拿下第二
第二名是来自清华和微软的三人团队,分别是清华大学研究助理教授Foxfi Ning、微软的高级研究员Zinan Lin以及清华学子yiyouyc。
左右滑动查看
在公开排行榜上, 他们得分34/50(排名第一),在私有排行榜上得分31/50(排名第二)。
最为关键的是,他们是目前Top-5中唯一公开解决方法的参赛团队。
本次比赛要求同时优化效率和推理性能。
目前,排名前5中,只有排名第二的参赛团队公布了解决方法。
他们的最终解决方案由三个主要部分组成:
第一部分:推理导向训练 —— 提升模型的推理能力 阶段1 - SFT(监督微调)和阶段2 - DPO(数据增强优化)使用精选数据。
第二部分:效率优化 —— 提升推理效率 选择合适的推理引擎、权重量化、KV缓存量化。
第三部分:推理时策略 —— 改善效率与推理性能的权衡 设计有效的提示语、进行自一致性聚合、在样本/问题级别进行早停以及调整一些启发式超参数。
训练脚本基于Light-R1项目。
在本地验证方面,用了AIME 2025测试集(30个问题)以及参考集(10个问题),评估了平均样本准确率和通过自一致性聚合的准确率,以获得参赛团队试验解决方案的初步判断。
第三名,Nokron,AI得分30,4年前加入Kggle。
第四名,Søren Ravn Andersen,AI得分29,10年前加入Kaggle。
第五名,来自浙江杭州的匿名选手,AI得分29,6年前加入了Kaggle。
AIMO2比赛介绍
AIMO是什么来头?
这是第二届AIMO进步奖竞赛,第一届的AIMO进步奖于2024年7月由Project Numina团队赢得。
这次竞赛增加了奖金池,提供了全新的题目数据集,为参赛者提供更多算力支持,并更新了关于使用开源大语言模型(LLM)的规则。
数学推理能力是人工智能发展的一个关键里程碑,是解决许多复杂问题的基石,比如工程奇迹或复杂的金融模型。
然而,目前的人工智能在这方面的能力还比较有限。
人工智能数学奥林匹克(AIMO) 是一个总金额高达1000万美元的基金,旨在激励开发能够与国际数学奥林匹克(IMO)顶尖人类选手表现相当的开源AI模型。
本届竞赛包含110道数学题目,涵盖代数、组合数学、几何和数论。
相比第一届,题目难度有所提升,大约达到国家奥林匹克竞赛的水平。
这些题目还被设计为「对AI来说特别难」,需要较强的数学推理能力,并且已经针对当前开源大语言模型的能力进行了测试。
为了避免训练数据与测试数据混淆的问题,竞赛采用了由国际解题团队创作的全新数学题目。
评估方式
参赛者的提交将根据预测结果与真实答案(ground-truth labels)的准确率进行评估。
简单来说,排名依据是预测答案与真实答案之间完全匹配的比例。
在这场比赛中,每个真实答案是一个0到999之间的整数。
奖项设置
本次竞赛总奖金达到了211.7152万美元
排名前五团队的奖金:
第一名:26.2144万美元
第二名:13.1072万美元
第三名:6.5536万美元
第四名:3.2768万美元
第五名:1.6384万美元
总体进步奖:
总体进步奖将颁发给在公开和私有测试集上均获得至少47/50分的最高排名团队。
在前五名奖金分配后,剩余的奖金将全部颁发给总体进步奖得主。
如果某团队获得总体进步奖,奖金将至少为158.9248万美元。
如果本届竞赛没有团队获得总体进步奖,剩余奖金将滚入下一届竞赛,奖金额度和分配规则保持不变。
代码要求
提交必须通过Notebook完成。提交按钮在提交后激活需满足以下条件:
CPU Notebook运行时间 ≤ 9小时
GPU Notebook运行时间 ≤ 5小时
禁用互联网访问
允许使用免费且公开的外部数据,包括预训练模型
提交文件必须通过API生成
参考资料:
https://x.com/kagglingdieter/status/1910591141138886923
https://mathstodon.xyz/@tao/114319952836204640
https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/leaderboard
裸体裸乳🍑无码 | 9天前 |
催眠小医仙之Yin辱大陆 |
dessi换衣官网免费进入 | 1天前 |
❤国产精寸止挑战nina |
奶瓶小马拉大车三部曲 | 5天前 |
在中国怎么跟韩国人联系 |
妖狐×仆ss生肉本子 | 7天前 |
邱淑贞性做爰A片在线 |
abcd怎么玩游戏 | 7天前 |
动漫❌羞免费网站中国字幕 |
挫虎威 | 7天前 |
韩国精品主播一区 |
亚洲爆乳无码一区二区三区水果派 | 0天前 |
老王头吃奶呻吟张开双腿视频 |
野战做爰的A片 | 4天前 |
被c尿了H高潮喷了文 |
原振侠未删减版120分 | 8天前 |
赫敏被强行扒开双腿灌满春药 |
许晴和老外床震视频 | 5天前 |
爽⋯躁多水⋯快⋯深鑫 |