通过自发学习提升语言模型推理能力

COLINGApr, 2024

通过自发学习提升语言模型推理能力

Improving Language Model Reasoning with Self-motivated Learning

Yunlong Feng, Yang Xu, Libo Qin, Yasheng Wang, Wanxiang Che

TL;DR通过建立自我激励学习框架，根据正确性的内在排序，依据奖励模型训练并通过强化学习优化推理能力，本研究的实验证据表明其方法显著提升了模型的推理能力，在部分数据集中甚至超过了 text-davinci-002 模型。

Abstract

large-scale high-quality training data is important for improving the performance of models. After trained with data that has rationales (reasoning steps), models gain →

large-scale high-quality training data rationales self-motivated learning reasoning capability reinforcement learning

发现论文，激发创造

自主探索避免陷阱：以细粒度奖励提升语言模型的推理能力

通过自主探索（Self-Explore）的方法，研究自动增强规划模型（LLMs）的推理能力，并与监督式微调相比，在 GSM8K 和 MATH 测试集上分别平均取得 11.57％和 2.89％的改进。

Apr, 2024

双师自学习的少样本理由生成

本文介绍了一种自我训练方法，利用有标记和无标记数据进一步改进少样本模型的效果，并提出了一种新的损失函数 Masked Label Regularization（MLR），以促进解释与预测标签之间的紧密联系。在三个公共数据集上的评估表明，所提出的方法在建模任务标签和生成忠实的解释方面是有效的。

Jun, 2023

大型语言模型可自我提升

本文提出了一种方法，使用未标注的数据进行自我训练和推理提高，通过 fine-tuning 在多个任务上达到了 SOTA 水平。

Oct, 2022

Few-shot 合理化自我训练：教师解释帮助学生进行 Few-shot NLU

利用自训练语言模型进行多任务教师 - 学生框架，在有限的任务特定标签和理由下，通过精心选择样本学习信息伪标签示例以及明确合理化预测的特征，显著提高了神经模型的性能，特别在低资源环境中表现出有效性。

Sep, 2021

远程监督下非单调推理的理性化学习

研究如何使用先前经过训练的语言模型、神经知识模型和相关任务的远程监督等，通过训练生成解释原因的生成模型来推断自然语言解释。然而，结果表明，由于神经语言模型的基本限制，该模型生成的解释仅限于具有普遍性的陈述，而在进行推理的同时预测更新或其类型和生成理由是更具挑战性的，这是未来的重要方向。

Dec, 2020

多重奖励提炼的个性化自盈利者设计

该论文介绍了一种名为 MaRio 的算法，该算法可以使规模较小的语言模型（约为 GPT-3 的 1/200）生成合理、多样且一致的自我理解解释，从而提高问题回答的准确性和自我理解质量，并通过人工评估验证了 MaRio 方案的可行性。

Nov, 2023

ZARA: 提升小语言模型 Few-Shot 自我合理化能力

本研究探索了利用解释来改善小型语言模型的 few-shot 自我合理性。我们提出了一种新方法 Zero-shot Augmentation of Rationale-Answer pairs (ZARA)，通过将可能性判断问题转换为自然语言推理，自动构建了伪平行数据来进行自我训练。实验结果表明，ZARA 在 FEB 基准测试中实现了 SOTA 性能，包括任务准确性和解释度量。此外，我们进行了人类和定量评估，验证了 ZARA 自动识别合理和准确的理由 - 答案对的能力。

May, 2023

优化语言模型的推理能力的弱监督方法

利用自我强化机制提升大型语言模型（LLMs）的推理能力，并通过一个弱监督基准测试集 extsc {PuzzleBen}，含有 25,147 个复杂问题以及人工生成的解释，展示了利用较少的监督数据加强 LLMs 推理能力的有效方法。

May, 2024

自我解释：教大型语言模型自行推理复杂问题

聚焦大型语言模型，探索通过自我解释生成复杂问题的过程，发现自我解释可以使模型更自信、更准确、更少倾向性地回答问题，甚至在几个复杂问题回答数据集上优于人工生成的示例。

Nov, 2023

利用机器生成的理由促进对话中的社会意义检测

我们提出了一种可以推广的分类方法，利用大型语言模型（LLM）来侦测对话中隐含的社会意义。我们设计了一个多方面的提示来提取将可见线索与潜在社会意义相连接的推理的文本解释。这些提取的解释或理由作为对话文本的增强，以促进对话理解和转移。我们在 2340 个实验设置上的实证结果表明，添加这些理由具有显著的积极影响。我们的发现适用于领域内分类、零样本和少样本领域转移，对两个不同语料库涵盖的两个不同的社会意义检测任务也适用。

Jun, 2024