在科学问题评分中使用思维树上的优化偏好来校准 LLMs 生成理由

Jun, 2024

在科学问题评分中使用思维树上的优化偏好来校准 LLMs 生成理由

Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring

Jiazheng Li, Hainiu Xu, Zhaoyue Sun, Yuxiang Zhou, David West...

TL;DR我们提出了一种新的框架，能够生成更加忠实的合理性解释，并且与基于分类器的黑盒评分系统的性能相匹配。我们通过查询大型语言模型产生思考树，并从每个思考树路径总结中间评估决策，以创建合成的理由数据和理由偏好数据，通过两步训练过程：有监督的微调和偏好优化，利用生成的合成数据来校准语言模型。广泛的实验结果表明，与先前的工作相比，我们的框架在 QWK 分数上提升了 38% 的评估性能，同时生成了更高质量的合理性解释，这一点被人类评估者和语言模型所认可。我们的工作揭示了利用从思考树路径获得的合成偏好数据进行偏好优化的有效性。

Abstract

Generating rationales that justify scoring decisions has been a promising way to facilitate explainability in automated scoring systems. H

rationales automated scoring systems explainability large language models preference optimization

发现论文，激发创造

推理轨迹上的偏好优化

这篇论文提出使用偏好优化方法来提高语言模型的推理性能，通过在思维链中应用这些方法，可以改进语言模型在推理任务中的表现。借助理由追踪数据集，我们提出了两种补充方案：数字损坏和弱语言模型提示。这种方法在 Falcon2-11B 和 Mistral-7B 的 GSM8K、AQuA-RAT 和 ARC 基准测试中提高了准确性，例如在 GSM8K 基准测试中，准确率相对提高了 8.47%，而不需要任何额外的注释。这项工作表明，在推理任务中创建更多的推理追踪数据集将进一步提升语言模型的性能。

Jun, 2024

借助基于树状偏好学习的大型语言模型推进过程验证

基于大型语言模型的树形偏好学习验证器 (Tree-PLV) 通过构建推理树并收集步骤级成对数据进行优先级训练，以更精确地评估完整的推理路径，从而实现在算术和常识推理任务上显著优于现有基准的性能提升。

Jun, 2024

生成的自由文本理由在主观决策中的说服力：一项关于两两论证排名的案例研究

分析了使用大型语言模型生成的自由文本解释对于主观答案的重要性，并评估了九个开源语言模型生成的自由文本解释的说服力，结果显示主观排序任务中 Llama2-70B-chat 模型的解释具有高度说服力，超过了 GPT 模型，并发现通过引导或自我改进可以提高解释的说服力。

Jun, 2024

对大型语言模型作为知识密集型任务的合理化特征的刻画

大型语言模型能够在缺乏任务特定监督的情况下生成流畅的文本，但其在具有知识密集型任务中提供有根据的解释的能力仍未得到充分探索。我们通过使用专家编写的几个样本，以少量样本的方式生成基于知识的解释来解决这一问题。通过研究发现，众包工作者更喜欢基于知识的解释，因为它们具有实际性、充分性和全面的反驳。虽然大型语言模型生成的解释更受欢迎，但需要进一步提高简明性和新颖性。另外，我们还展示了错误模型预测的解释如何削弱人类对大型语言模型生成的解释的信任。基于这些观察的动机，我们创建了一个两阶段的流程，在生成解释之前审查任务预测并消除潜在的错误决策，以实现可信赖的解释生成。

Nov, 2023

蒙特卡洛树搜索通过迭代偏好学习提高推理能力

通过增强大型语言模型的推理能力，我们介绍了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。我们利用蒙特卡洛树搜索 (MCTS) 迭代收集偏好数据，将实例级奖励分解为更精细的步骤级信号。为了增强中间步骤的一致性，我们结合了结果验证和逐步自我评估，不断更新新生成数据的质量评估。该算法采用直接偏好优化 (DPO) 使用这些新生成的步骤级偏好数据更新语言模型策略。对各种算术和常识推理任务进行的广泛评估表明，我们的方法在准确性方面相比现有模型取得了显著的性能提升。此外，我们的研究还深入探讨了训练和推理计算的权衡关系，为我们的方法如何有效地提高性能提供了见解。

May, 2024

通过自发学习提升语言模型推理能力

通过建立自我激励学习框架，根据正确性的内在排序，依据奖励模型训练并通过强化学习优化推理能力，本研究的实验证据表明其方法显著提升了模型的推理能力，在部分数据集中甚至超过了 text-davinci-002 模型。

Apr, 2024

通过轨迹收集和过程奖励合成学习基于规划的推理

通过直接优化收集到的经验轨迹，我们提出一个基于规划的推理学习框架，以解决大型语言模型在复杂推理任务中出现的问题，并通过具体的过程奖励排名来提高生成推理过程的可靠性和可信度。

Feb, 2024

评估 LLM Rationale 的人类对齐度和模型忠实度

我们研究了大型语言模型（LLM）如何通过原因来解释其生成的模式，它们是从输入文本中提取出来的一组标记，反映了 LLM 的决策过程。我们使用两种方法提取 LLM 原因：1）基于归因的方法使用注意力或梯度来定位重要的标记，以及 2）基于提示的方法使用提示来引导 LLM 提取原因。通过广泛的实验，我们展示了基于提示的原因与人工注释的原因更好地对齐，即使模型性能差，也能合理地与人类对齐。此外，我们还发现基于提示的方法的忠实度限制可能与它们的折叠预测有关。通过在相应的数据集上微调这些模型，无论是提示方法还是归因方法都展现了更好的忠实度。我们的研究为更严格和公正地评估 LLM 原因提供了启示，尤其是基于提示的方法。

Jun, 2024

QCRD：基于质量引导的对比理由蒸馏用于大型语言模型

通过对比性理由蒸馏，我们提出了一种质量引导的方法用于推理能力学习，能够从大型语言模型中提取正面和负面的知识理由，并通过在线更新的判别器优化训练过程，得到更高质量的可解释性底层语言模型。

May, 2024

机器理由（未必）对人类有用吗？衡量和提高自由文本理由的人类效用

大型语言模型可生成可用理性，但其人类实用性不佳，因此我们提出了一个自动化评分系统 GEN-U 来衡量基于无人参与的人类实用性的帮助性，并最大限度地保持任务绩效。

May, 2023