Jun, 2024

在科学问题评分中使用思维树上的优化偏好来校准 LLMs 生成理由

TL;DR我们提出了一种新的框架,能够生成更加忠实的合理性解释,并且与基于分类器的黑盒评分系统的性能相匹配。我们通过查询大型语言模型产生思考树,并从每个思考树路径总结中间评估决策,以创建合成的理由数据和理由偏好数据,通过两步训练过程:有监督的微调和偏好优化,利用生成的合成数据来校准语言模型。广泛的实验结果表明,与先前的工作相比,我们的框架在 QWK 分数上提升了 38% 的评估性能,同时生成了更高质量的合理性解释,这一点被人类评估者和语言模型所认可。我们的工作揭示了利用从思考树路径获得的合成偏好数据进行偏好优化的有效性。