通过偏好学习提高大型语言模型的属性文本生成能力

Mar, 2024

通过偏好学习提高大型语言模型的属性文本生成能力

Improving Attributed Text Generation of Large Language Models via Preference Learning

Dongfang Li, Zetian Sun, Baotian Hu, Zhenyu Liu, Xinshuo Hu...

TL;DR大型语言模型在自然语言处理中被广泛采用，但是它们面临着生成不可靠内容的挑战。最近的研究旨在通过引用作为证据来减少错误信息和产生幻象。然而，当前的引用方法通常集中在检索阶段和自动评估上，忽视了在人类学术写作中增强可信度的引用机制的反映。本文通过将归因任务建模为偏好学习，并引入自动偏好优化（APO）框架来解决这些挑战。我们首先创建了一个经过训练的精心策划的收集 (6330 个例子)，通过收集和过滤现有数据集。其次，考虑到标记偏好数据的高成本，我们进一步提出了一种自动合成归因偏好数据的方法，得到了 95263 对。此外，受人类引文过程的启发，我们还提出了一种利用细粒度信息的渐进式偏好优化方法。在 ASQA、StrategyQA 和 ELI5 三个数据集上进行了大量实验证明，APO 在引文 F1 指标上达到了最先进的水平，并且具有更高的回答质量。

Abstract

large language models have been widely adopted in natural language processing, yet they face the challenge of generating unreliable content. Recent works aim to reduce misinformation and hallucinations by resorti

large language models misinformation attribution methods automatic preference optimization citation mechanisms

发现论文，激发创造

大型语言模型自动评估归因

本文探讨了大型语言模型在自动评估引用时的两种方法：引导 LLM 和微调更小的 LM。我们手动策划了一组测试样例以涵盖 12 个领域并评估了其自动评估的结果，旨在为这一重要问题的未来研究打下基础。

May, 2023

对抗性偏好优化

人类偏好对齐是提高大型语言模型交互质量的重要训练步骤。我们提出了一种对抗式偏好优化框架 (APO)，通过最小最大博弈的方式，使 LLM 代理和偏好模型交替更新，从而自适应地解决生成分布差异的问题，实验证明了 APO 在改善 LLM 的帮助性和无害性方面的有效性。

Nov, 2023

学习计划与引文生成文本

我们在这篇论文中探讨了最近显示对于生成的文本的逼真性、基础性和可控性有所改进的计划型模型的归因能力，该模型将计划概念化为一系列问题，旨在作为生成内容及其组织的蓝图。我们提出了两个利用不同蓝图变体的归因模型，一个是从头开始生成问题的抽象模型，另一个是从输入中复制问题的抽取模型。在长文问题回答的实验中，规划始终能够提高归因质量，此外，蓝图模型生成的引用文献与缺乏规划组件的基于 LLM 的流程获得的引用相比更加准确。

Apr, 2024

大型语言模型归因调查

该研究论文对开放领域生成系统的归因机制进行了全面回顾，特别是大型语言模型。尽管归因或引用可以改善事实性和可验证性，但模糊的知识库、内在偏见以及过度归因的缺点可能会妨碍这些系统的有效性。本调查旨在为研究人员提供有价值的见解，以帮助改进归因方法论，提高开放领域生成系统生成的响应的可靠性和真实性。我们认为这个领域目前仍处于初级阶段，并维护一个存储库来跟踪正在进行的研究。

Nov, 2023

属性问答：针对属性化大语言模型的评估和建模

本文研究基于属性的 LLM 发展，在开发 Attributed LLMs 的第一步骤中提出可重复的 Attributed QA 评估框架并评估多种结构。实验结果探讨了如何度量归属（attribution）以及现有方法在归属方面的表现如何，并提出了建立带归属特性的 LLMs 的可能方向。

Dec, 2022

跨语言问答的归因评估与建模

为了提高跨语言问答系统的可靠性，本研究对该系统的描述性和归属性进行了研究，并测试了多种检测方法来提高归属度。通过使用自然语言推理模型和 PaLM2 对少量的归属数据进行微调，可以准确地检测到归属和提高跨语言问答系统的归属度。

May, 2023

语言模型洞察：上下文问答中的归因方法

基于大语言模型的隐藏状态，我们提出了一种新的环境下问答的归因方法，绕过重复训练模型和检索模型开销，提供精细的归因并保持结果质量，在识别出 LLM 生成的文字时表现出与 GPT-4 相当甚至更好的性能，且适用于各种 LLM 架构。

May, 2024

自动归因评估的难度有多大？

通过提供引用的证据，现代生成式搜索引擎增强了大型语言模型（LLM）响应的可靠性。为了弥补缺乏这些方法的标准化基准的差距，我们提出了 AttributionBench，这是一个由各种现有归因数据集编制的综合基准。我们在 AttributionBench 上进行了大量实验，揭示了即使对于最先进的 LLM 也存在自动归因评估的挑战。

Feb, 2024

语言模型对齐的注释高效优化

提出了 Annotation-Efficient Preference Optimization (AEPO) 的方法，通过选择能最大化质量和多样性的回应子集并对之进行偏好标注，将有限的标注预算集中用于标注质量高且多样性较好的较小回应子集上，比标准的 Direct Preference Optimization (DPO) 方法在同样的标注预算下表现更好。

May, 2024

使用知识图谱评估复杂问题回答和归因的大型语言模型基准

使用知识图谱为问题 - 答案对自动生成不同类别的归因，并引入细分类型（支持性、不足、矛盾和不相关）来衡量归因，评估现有评估方法在细致归因设置下的表现较差，使用人工注释验证的 CAQA 基准为选择和开发 LLM 归因评估器提供了有前景的工具。

Jan, 2024