语言模型中的理性增强集成

Jul, 2022

Rationale-Augmented Ensembles in Language Models

Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi...

TL;DR论文提出了使用基于 rationale 的 ensemble 模型来提升自然语言处理任务的性能和可解释性。

Abstract

Recent research has shown that rationales, or step-by-step chains of thought, can be used to improve performance in multi-step reasoning tasks. We reconsider rationale-augmented prompting for few-shot in-context

rationales prompting ensembles natural language processing interpretability

发现论文，激发创造

环境增强的图形合理化

该文提出了一种新型的增强操作环境替换，自动生成虚拟数据样本以改进根据图理性的识别。该文论证了该方法的有效性和效率，并将其与最近的技术进行比较。

Jun, 2022

何去学习以及如何：迈向有效的理由学习

通过实证分析人类解释的两个特点，即最大化理性监督准确性未必是提高模型准确性的最佳目标和人类理性是否提供足够信息以供模型进行预测，我们在此基础上提出了几种新的损失函数和学习策略，在三个包含有人类理性的数据集上进行评估，结果显示出了不断改进的基线，包括 MultiRC 上的 3% 精度提高。我们的研究强调了理解人类解释的特性，并据此进行模型训练的重要性。

Nov, 2021

ZARA: 提升小语言模型 Few-Shot 自我合理化能力

本研究探索了利用解释来改善小型语言模型的 few-shot 自我合理性。我们提出了一种新方法 Zero-shot Augmentation of Rationale-Answer pairs (ZARA)，通过将可能性判断问题转换为自然语言推理，自动构建了伪平行数据来进行自我训练。实验结果表明，ZARA 在 FEB 基准测试中实现了 SOTA 性能，包括任务准确性和解释度量。此外，我们进行了人类和定量评估，验证了 ZARA 自动识别合理和准确的理由 - 答案对的能力。

May, 2023

远程监督下非单调推理的理性化学习

研究如何使用先前经过训练的语言模型、神经知识模型和相关任务的远程监督等，通过训练生成解释原因的生成模型来推断自然语言解释。然而，结果表明，由于神经语言模型的基本限制，该模型生成的解释仅限于具有普遍性的陈述，而在进行推理的同时预测更新或其类型和生成理由是更具挑战性的，这是未来的重要方向。

Dec, 2020

AURA: 有理据中的自然语言推理与偶然性不确定性

处理引起不确定性的不完美理由，根据理由的歧义性，我们指导模型选择两种不同的推理模型，从而提供稳健的性能优势。

Feb, 2024

神经预测的理性化

通过提取文本来生成短而连贯的理由 —— 根据规则确保足以做出准确预测的 —— 以代替不带理由的预测，该方法结合了生成器（分配文本碎片的候选理由）和编码器（用于预测）。从未给予判据，而是让模型符合对规则的要求。本文还在多方面情感分析和问题检索任务中成功验证了此方法。

Jun, 2016

大型语言模型的增强型提示集成

我们提出了一种基于提示集成的方法来进一步提高语言模型推理性能，并在 GSM8k 和 AQuA 数据集上的实验中验证了该方法的优越性。

Apr, 2023

推理的聚合：一个增强大型语言模型中答案选择的层次框架

最近在 “思维链路提示” 方面取得的进展为大型语言模型在复杂推理任务中带来了重大突破。然而，当前的研究通过对答案频率进行多个推理链路的抽样和集成来增强 LLMs 的推理性能，但这种方法在正确答案占少数的情况下会失败。为了解决这个局限性，我们提出了一种层次化推理聚合框架 AoR（聚合推理），它根据推理链路的评估选择答案，并结合动态抽样，根据任务的复杂性调整推理链路的数量。对一系列复杂推理任务的实验结果表明，AoR 优于其他突出的集成方法。进一步分析表明，与当前方法相比，AoR 不仅适应多种 LLMs，而且达到了更高的性能上限。

May, 2024

利用机器生成的理由促进对话中的社会意义检测

我们提出了一种可以推广的分类方法，利用大型语言模型（LLM）来侦测对话中隐含的社会意义。我们设计了一个多方面的提示来提取将可见线索与潜在社会意义相连接的推理的文本解释。这些提取的解释或理由作为对话文本的增强，以促进对话理解和转移。我们在 2340 个实验设置上的实证结果表明，添加这些理由具有显著的积极影响。我们的发现适用于领域内分类、零样本和少样本领域转移，对两个不同语料库涵盖的两个不同的社会意义检测任务也适用。

Jun, 2024

Few-shot 合理化自我训练：教师解释帮助学生进行 Few-shot NLU

利用自训练语言模型进行多任务教师 - 学生框架，在有限的任务特定标签和理由下，通过精心选择样本学习信息伪标签示例以及明确合理化预测的特征，显著提高了神经模型的性能，特别在低资源环境中表现出有效性。

Sep, 2021