大型语言模型自动评估归因
通过提供引用的证据,现代生成式搜索引擎增强了大型语言模型(LLM)响应的可靠性。为了弥补缺乏这些方法的标准化基准的差距,我们提出了 AttributionBench,这是一个由各种现有归因数据集编制的综合基准。我们在 AttributionBench 上进行了大量实验,揭示了即使对于最先进的 LLM 也存在自动归因评估的挑战。
Feb, 2024
本文研究基于属性的 LLM 发展,在开发 Attributed LLMs 的第一步骤中提出可重复的 Attributed QA 评估框架并评估多种结构。实验结果探讨了如何度量归属(attribution)以及现有方法在归属方面的表现如何,并提出了建立带归属特性的 LLMs 的可能方向。
Dec, 2022
该研究论文对开放领域生成系统的归因机制进行了全面回顾,特别是大型语言模型。尽管归因或引用可以改善事实性和可验证性,但模糊的知识库、内在偏见以及过度归因的缺点可能会妨碍这些系统的有效性。本调查旨在为研究人员提供有价值的见解,以帮助改进归因方法论,提高开放领域生成系统生成的响应的可靠性和真实性。我们认为这个领域目前仍处于初级阶段,并维护一个存储库来跟踪正在进行的研究。
Nov, 2023
基于大语言模型的隐藏状态,我们提出了一种新的环境下问答的归因方法,绕过重复训练模型和检索模型开销,提供精细的归因并保持结果质量,在识别出 LLM 生成的文字时表现出与 GPT-4 相当甚至更好的性能,且适用于各种 LLM 架构。
May, 2024
为了提高跨语言问答系统的可靠性,本研究对该系统的描述性和归属性进行了研究,并测试了多种检测方法来提高归属度。通过使用自然语言推理模型和 PaLM2 对少量的归属数据进行微调,可以准确地检测到归属和提高跨语言问答系统的归属度。
May, 2023
使用知识图谱为问题 - 答案对自动生成不同类别的归因,并引入细分类型(支持性、不足、矛盾和不相关)来衡量归因,评估现有评估方法在细致归因设置下的表现较差,使用人工注释验证的 CAQA 基准为选择和开发 LLM 归因评估器提供了有前景的工具。
Jan, 2024
这项研究介绍了 ALCE,一个自动化 LLMs 引用评估的评测基准,通过自动度量三个维度 - 流畅度、正确性和引用质量,强调了更好的检索器、长文本 LLMs 等方向的改善空间。
May, 2023
我们对基于文本重叠和大型语言模型判断的自动化方法在广泛任务和跨语言环境中的可靠性进行了研究,发现自动评估方法与人类评估者之间的相关性在任务类型不同的情况下存在相当大的变异性。尽管自动评估方法在特定条件下可以近似人类判断,但其可靠性高度依赖于上下文。这些发现强化了我们在开发和评估面向指导的大型语言模型时如何应用和解释自动化方法的理解。
Feb, 2024
研究探讨了在知识密集型对话设置中,提示检索证据的 LLMs 的流畅度与归属之间的关系,并提出了改善 LLMs 总体质量的方法。实验结果显示,更大的模型在流畅度和属性方面表现更好,并且使用 top-k 检索可以提高属性,但有损于流畅度。研究提出了一种可使较小模型赶上更大模型并保持 top-k 检索优势的方法。
Feb, 2023