对大型语言模型作为知识密集型任务的合理化特征的刻画

Nov, 2023

对大型语言模型作为知识密集型任务的合理化特征的刻画

Characterizing Large Language Models as Rationalizers of Knowledge-intensive Tasks

Aditi Mishra, Sajjadur Rahman, Hannah Kim, Kushan Mitra, Estevam Hruschka

TL;DR大型语言模型能够在缺乏任务特定监督的情况下生成流畅的文本，但其在具有知识密集型任务中提供有根据的解释的能力仍未得到充分探索。我们通过使用专家编写的几个样本，以少量样本的方式生成基于知识的解释来解决这一问题。通过研究发现，众包工作者更喜欢基于知识的解释，因为它们具有实际性、充分性和全面的反驳。虽然大型语言模型生成的解释更受欢迎，但需要进一步提高简明性和新颖性。另外，我们还展示了错误模型预测的解释如何削弱人类对大型语言模型生成的解释的信任。基于这些观察的动机，我们创建了一个两阶段的流程，在生成解释之前审查任务预测并消除潜在的错误决策，以实现可信赖的解释生成。

Abstract

large language models (LLMs) are proficient at generating fluent text with minimal task-specific supervision. Yet, their ability to provide well-grounded rationalizations for knowledge-intensive tasks remains und

large language models rationales knowledge-intensive tasks knowledge-guided rationalization trustworthy rationale generation

发现论文，激发创造

大型语言模型中的 (非) 理性和认知偏差

大型语言模型在合理推理中显示出人类的偏见和不合理行为，但这种不合理行为与人类不同，且存在额外的回答不一致性。

Feb, 2024

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

知识增强大型语言模型的原则框架

这篇论文介绍了一个严格设计的框架，用于创建能够有效锚定知识并采用闭环推理过程的大型语言模型，以提升其进行深入分析的能力，同时解剖了该框架的组成部分对模型性能的贡献，从而为改进推理能力提供了理论保证。

Nov, 2023

通过概率推理实现逻辑一致的语言模型

通过引入基于原则的概率推理训练目标，本研究改进了大型语言模型的逻辑一致性和新知识推理能力。

Apr, 2024

在可读性水平控制下的自由文本论据生成

大型语言模型在不同可读性级别下进行自然语言解释任务，发现解释可以适应不同的指导，但请求的可读性经常与传统可读性评估指标不一致。该研究还发现，评估大型语言模型生成的解释时，其对于文本复杂度的评估呈现出与自然语言生成中观察到的类似偏好。最后，人类评估表明在不同可读性级别下的解释总体印象令人满意，其中高中级别的可读性最常见且受欢迎。

Jul, 2024

Few-shot 合理化自我训练：教师解释帮助学生进行 Few-shot NLU

利用自训练语言模型进行多任务教师 - 学生框架，在有限的任务特定标签和理由下，通过精心选择样本学习信息伪标签示例以及明确合理化预测的特征，显著提高了神经模型的性能，特别在低资源环境中表现出有效性。

Sep, 2021

大型语言模型是临床推理器：具备推理意识的诊断框架和提示生成的合理化

借助基于提示的学习，通过 “推理感知” 的诊断框架实现了对临床推理进行理性化，并能够在时间和劳动资源上具有高效性，从而实现了对疾病诊断的临床推理。

Dec, 2023

超越准确性：评估大型语言模型的推理行为 -- 调查研究

大型语言模型在推理任务中表现出色，但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究，深入探讨模型的推理过程，并调查评估语言模型推理行为的方法，发现其依赖于训练数据的表面模式和相关性，而非真正的推理能力。同时，我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述，我们旨在揭示大型语言模型内部复杂的推理过程。

Apr, 2024

评估 LLM Rationale 的人类对齐度和模型忠实度

我们研究了大型语言模型（LLM）如何通过原因来解释其生成的模式，它们是从输入文本中提取出来的一组标记，反映了 LLM 的决策过程。我们使用两种方法提取 LLM 原因：1）基于归因的方法使用注意力或梯度来定位重要的标记，以及 2）基于提示的方法使用提示来引导 LLM 提取原因。通过广泛的实验，我们展示了基于提示的原因与人工注释的原因更好地对齐，即使模型性能差，也能合理地与人类对齐。此外，我们还发现基于提示的方法的忠实度限制可能与它们的折叠预测有关。通过在相应的数据集上微调这些模型，无论是提示方法还是归因方法都展现了更好的忠实度。我们的研究为更严格和公正地评估 LLM 原因提供了启示，尤其是基于提示的方法。

Jun, 2024

QCRD：基于质量引导的对比理由蒸馏用于大型语言模型

通过对比性理由蒸馏，我们提出了一种质量引导的方法用于推理能力学习，能够从大型语言模型中提取正面和负面的知识理由，并通过在线更新的判别器优化训练过程，得到更高质量的可解释性底层语言模型。

May, 2024