大型语言模型中的协同和贡献性属性的统一
该研究论文对开放领域生成系统的归因机制进行了全面回顾,特别是大型语言模型。尽管归因或引用可以改善事实性和可验证性,但模糊的知识库、内在偏见以及过度归因的缺点可能会妨碍这些系统的有效性。本调查旨在为研究人员提供有价值的见解,以帮助改进归因方法论,提高开放领域生成系统生成的响应的可靠性和真实性。我们认为这个领域目前仍处于初级阶段,并维护一个存储库来跟踪正在进行的研究。
Nov, 2023
本文探讨了大型语言模型在自动评估引用时的两种方法:引导 LLM 和微调更小的 LM。我们手动策划了一组测试样例以涵盖 12 个领域并评估了其自动评估的结果,旨在为这一重要问题的未来研究打下基础。
May, 2023
为了提高跨语言问答系统的可靠性,本研究对该系统的描述性和归属性进行了研究,并测试了多种检测方法来提高归属度。通过使用自然语言推理模型和 PaLM2 对少量的归属数据进行微调,可以准确地检测到归属和提高跨语言问答系统的归属度。
May, 2023
本文研究基于属性的 LLM 发展,在开发 Attributed LLMs 的第一步骤中提出可重复的 Attributed QA 评估框架并评估多种结构。实验结果探讨了如何度量归属(attribution)以及现有方法在归属方面的表现如何,并提出了建立带归属特性的 LLMs 的可能方向。
Dec, 2022
本文提出了一种多语言方法,用于评估自然语言推理的归因方法在合理性和忠实度方面的表现,并通过单词对齐量化忠实度。认为效果最好的归因方法在合理性和忠实度方面不同,并用基于高亮的解释增强了 XNLI 数据集,提供了一个支持未来 exNLP 研究的多语言 NLI 数据集。
Apr, 2022
基于大语言模型的隐藏状态,我们提出了一种新的环境下问答的归因方法,绕过重复训练模型和检索模型开销,提供精细的归因并保持结果质量,在识别出 LLM 生成的文字时表现出与 GPT-4 相当甚至更好的性能,且适用于各种 LLM 架构。
May, 2024
研究探讨了在知识密集型对话设置中,提示检索证据的 LLMs 的流畅度与归属之间的关系,并提出了改善 LLMs 总体质量的方法。实验结果显示,更大的模型在流畅度和属性方面表现更好,并且使用 top-k 检索可以提高属性,但有损于流畅度。研究提出了一种可使较小模型赶上更大模型并保持 top-k 检索优势的方法。
Feb, 2023
使用知识图谱为问题 - 答案对自动生成不同类别的归因,并引入细分类型(支持性、不足、矛盾和不相关)来衡量归因,评估现有评估方法在细致归因设置下的表现较差,使用人工注释验证的 CAQA 基准为选择和开发 LLM 归因评估器提供了有前景的工具。
Jan, 2024
大型语言模型在自然语言处理中被广泛采用,但是它们面临着生成不可靠内容的挑战。最近的研究旨在通过引用作为证据来减少错误信息和产生幻象。然而,当前的引用方法通常集中在检索阶段和自动评估上,忽视了在人类学术写作中增强可信度的引用机制的反映。本文通过将归因任务建模为偏好学习,并引入自动偏好优化(APO)框架来解决这些挑战。我们首先创建了一个经过训练的精心策划的收集 (6330 个例子),通过收集和过滤现有数据集。其次,考虑到标记偏好数据的高成本,我们进一步提出了一种自动合成归因偏好数据的方法,得到了 95263 对。此外,受人类引文过程的启发,我们还提出了一种利用细粒度信息的渐进式偏好优化方法。在 ASQA、StrategyQA 和 ELI5 三个数据集上进行了大量实验证明,APO 在引文 F1 指标上达到了最先进的水平,并且具有更高的回答质量。
Mar, 2024