语言模型中的理性增强集成
通过实证分析人类解释的两个特点,即最大化理性监督准确性未必是提高模型准确性的最佳目标和人类理性是否提供足够信息以供模型进行预测,我们在此基础上提出了几种新的损失函数和学习策略,在三个包含有人类理性的数据集上进行评估,结果显示出了不断改进的基线,包括 MultiRC 上的 3% 精度提高。我们的研究强调了理解人类解释的特性,并据此进行模型训练的重要性。
Nov, 2021
本研究探索了利用解释来改善小型语言模型的 few-shot 自我合理性。我们提出了一种新方法 Zero-shot Augmentation of Rationale-Answer pairs (ZARA),通过将可能性判断问题转换为自然语言推理,自动构建了伪平行数据来进行自我训练。实验结果表明,ZARA 在 FEB 基准测试中实现了 SOTA 性能,包括任务准确性和解释度量。此外,我们进行了人类和定量评估,验证了 ZARA 自动识别合理和准确的理由 - 答案对的能力。
May, 2023
研究如何使用先前经过训练的语言模型、神经知识模型和相关任务的远程监督等,通过训练生成解释原因的生成模型来推断自然语言解释。然而,结果表明,由于神经语言模型的基本限制,该模型生成的解释仅限于具有普遍性的陈述,而在进行推理的同时预测更新或其类型和生成理由是更具挑战性的,这是未来的重要方向。
Dec, 2020
通过提取文本来生成短而连贯的理由 —— 根据规则确保足以做出准确预测的 —— 以代替不带理由的预测,该方法结合了生成器(分配文本碎片的候选理由)和编码器(用于预测)。从未给予判据,而是让模型符合对规则的要求。本文还在多方面情感分析和问题检索任务中成功验证了此方法。
Jun, 2016
最近在 “思维链路提示” 方面取得的进展为大型语言模型在复杂推理任务中带来了重大突破。然而,当前的研究通过对答案频率进行多个推理链路的抽样和集成来增强 LLMs 的推理性能,但这种方法在正确答案占少数的情况下会失败。为了解决这个局限性,我们提出了一种层次化推理聚合框架 AoR(聚合推理),它根据推理链路的评估选择答案,并结合动态抽样,根据任务的复杂性调整推理链路的数量。对一系列复杂推理任务的实验结果表明,AoR 优于其他突出的集成方法。进一步分析表明,与当前方法相比,AoR 不仅适应多种 LLMs,而且达到了更高的性能上限。
May, 2024
我们提出了一种可以推广的分类方法,利用大型语言模型(LLM)来侦测对话中隐含的社会意义。我们设计了一个多方面的提示来提取将可见线索与潜在社会意义相连接的推理的文本解释。这些提取的解释或理由作为对话文本的增强,以促进对话理解和转移。我们在 2340 个实验设置上的实证结果表明,添加这些理由具有显著的积极影响。我们的发现适用于领域内分类、零样本和少样本领域转移,对两个不同语料库涵盖的两个不同的社会意义检测任务也适用。
Jun, 2024
利用自训练语言模型进行多任务教师 - 学生框架,在有限的任务特定标签和理由下,通过精心选择样本学习信息伪标签示例以及明确合理化预测的特征,显著提高了神经模型的性能,特别在低资源环境中表现出有效性。
Sep, 2021