Mar, 2024

通过偏好学习提高大型语言模型的属性文本生成能力

TL;DR大型语言模型在自然语言处理中被广泛采用,但是它们面临着生成不可靠内容的挑战。最近的研究旨在通过引用作为证据来减少错误信息和产生幻象。然而,当前的引用方法通常集中在检索阶段和自动评估上,忽视了在人类学术写作中增强可信度的引用机制的反映。本文通过将归因任务建模为偏好学习,并引入自动偏好优化(APO)框架来解决这些挑战。我们首先创建了一个经过训练的精心策划的收集 (6330 个例子),通过收集和过滤现有数据集。其次,考虑到标记偏好数据的高成本,我们进一步提出了一种自动合成归因偏好数据的方法,得到了 95263 对。此外,受人类引文过程的启发,我们还提出了一种利用细粒度信息的渐进式偏好优化方法。在 ASQA、StrategyQA 和 ELI5 三个数据集上进行了大量实验证明,APO 在引文 F1 指标上达到了最先进的水平,并且具有更高的回答质量。