通过自发学习提升语言模型推理能力
通过自主探索(Self-Explore)的方法,研究自动增强规划模型(LLMs)的推理能力,并与监督式微调相比,在 GSM8K 和 MATH 测试集上分别平均取得 11.57%和 2.89%的改进。
Apr, 2024
本文介绍了一种自我训练方法,利用有标记和无标记数据进一步改进少样本模型的效果,并提出了一种新的损失函数 Masked Label Regularization(MLR),以促进解释与预测标签之间的紧密联系。在三个公共数据集上的评估表明,所提出的方法在建模任务标签和生成忠实的解释方面是有效的。
Jun, 2023
利用自训练语言模型进行多任务教师 - 学生框架,在有限的任务特定标签和理由下,通过精心选择样本学习信息伪标签示例以及明确合理化预测的特征,显著提高了神经模型的性能,特别在低资源环境中表现出有效性。
Sep, 2021
研究如何使用先前经过训练的语言模型、神经知识模型和相关任务的远程监督等,通过训练生成解释原因的生成模型来推断自然语言解释。然而,结果表明,由于神经语言模型的基本限制,该模型生成的解释仅限于具有普遍性的陈述,而在进行推理的同时预测更新或其类型和生成理由是更具挑战性的,这是未来的重要方向。
Dec, 2020
该论文介绍了一种名为 MaRio 的算法,该算法可以使规模较小的语言模型(约为 GPT-3 的 1/200)生成合理、多样且一致的自我理解解释,从而提高问题回答的准确性和自我理解质量,并通过人工评估验证了 MaRio 方案的可行性。
Nov, 2023
本研究探索了利用解释来改善小型语言模型的 few-shot 自我合理性。我们提出了一种新方法 Zero-shot Augmentation of Rationale-Answer pairs (ZARA),通过将可能性判断问题转换为自然语言推理,自动构建了伪平行数据来进行自我训练。实验结果表明,ZARA 在 FEB 基准测试中实现了 SOTA 性能,包括任务准确性和解释度量。此外,我们进行了人类和定量评估,验证了 ZARA 自动识别合理和准确的理由 - 答案对的能力。
May, 2023
利用自我强化机制提升大型语言模型(LLMs)的推理能力,并通过一个弱监督基准测试集 extsc {PuzzleBen},含有 25,147 个复杂问题以及人工生成的解释,展示了利用较少的监督数据加强 LLMs 推理能力的有效方法。
May, 2024
聚焦大型语言模型,探索通过自我解释生成复杂问题的过程,发现自我解释可以使模型更自信、更准确、更少倾向性地回答问题,甚至在几个复杂问题回答数据集上优于人工生成的示例。
Nov, 2023
我们提出了一种可以推广的分类方法,利用大型语言模型(LLM)来侦测对话中隐含的社会意义。我们设计了一个多方面的提示来提取将可见线索与潜在社会意义相连接的推理的文本解释。这些提取的解释或理由作为对话文本的增强,以促进对话理解和转移。我们在 2340 个实验设置上的实证结果表明,添加这些理由具有显著的积极影响。我们的发现适用于领域内分类、零样本和少样本领域转移,对两个不同语料库涵盖的两个不同的社会意义检测任务也适用。
Jun, 2024