Apr, 2025

海姆达尔:生成验证中的测试时扩展

TL;DR本研究解决了当前大语言模型在解决数学问题时验证能力不足的问题。提出的海姆达尔模型通过纯强化学习显著提高了竞争性数学问题的验证准确率,并实现了极高的去泛化能力。研究显示,海姆达尔在扩展问题解决方面具有重要潜力,通过悲观验证方法在实际应用中的准确性显著提升。