Feb, 2025

样本、审查和扩展:通过扩展验证实现有效的推理时间搜索

TL;DR本研究针对采样基础搜索的缺点进行了探讨,展示了通过扩展一个简约实现,不仅提高了推理能力,还改善了验证精度。关键发现包括,响应比较可以提供错误和幻觉位置的有用信号,并且不同的模型输出风格适用于不同的上下文。该研究指出了前沿模型在验证能力上的不足,提出一个新的基准来衡量这些缺失的进展。