大型语言模型自动评估归因

May, 2023

Automatic Evaluation of Attribution by Large Language Models

Xiang Yue, Boshi Wang, Kai Zhang, Ziru Chen, Yu Su...

TL;DR本文探讨了大型语言模型在自动评估引用时的两种方法：引导 LLM 和微调更小的 LM。我们手动策划了一组测试样例以涵盖 12 个领域并评估了其自动评估的结果，旨在为这一重要问题的未来研究打下基础。

Abstract

A recent focus of large language model (LLM) development, as exemplified by generative search engines, is to incorporate external references to generate and support their claims. However, evaluating the

large language model attribution auto-evaluation generative search engines fine-tuning

发现论文，激发创造

自动归因评估的难度有多大？

通过提供引用的证据，现代生成式搜索引擎增强了大型语言模型（LLM）响应的可靠性。为了弥补缺乏这些方法的标准化基准的差距，我们提出了 AttributionBench，这是一个由各种现有归因数据集编制的综合基准。我们在 AttributionBench 上进行了大量实验，揭示了即使对于最先进的 LLM 也存在自动归因评估的挑战。

Feb, 2024

属性问答：针对属性化大语言模型的评估和建模

本文研究基于属性的 LLM 发展，在开发 Attributed LLMs 的第一步骤中提出可重复的 Attributed QA 评估框架并评估多种结构。实验结果探讨了如何度量归属（attribution）以及现有方法在归属方面的表现如何，并提出了建立带归属特性的 LLMs 的可能方向。

Dec, 2022

大型语言模型归因调查

该研究论文对开放领域生成系统的归因机制进行了全面回顾，特别是大型语言模型。尽管归因或引用可以改善事实性和可验证性，但模糊的知识库、内在偏见以及过度归因的缺点可能会妨碍这些系统的有效性。本调查旨在为研究人员提供有价值的见解，以帮助改进归因方法论，提高开放领域生成系统生成的响应的可靠性和真实性。我们认为这个领域目前仍处于初级阶段，并维护一个存储库来跟踪正在进行的研究。

Nov, 2023

语言模型洞察：上下文问答中的归因方法

基于大语言模型的隐藏状态，我们提出了一种新的环境下问答的归因方法，绕过重复训练模型和检索模型开销，提供精细的归因并保持结果质量，在识别出 LLM 生成的文字时表现出与 GPT-4 相当甚至更好的性能，且适用于各种 LLM 架构。

May, 2024

跨语言问答的归因评估与建模

为了提高跨语言问答系统的可靠性，本研究对该系统的描述性和归属性进行了研究，并测试了多种检测方法来提高归属度。通过使用自然语言推理模型和 PaLM2 对少量的归属数据进行微调，可以准确地检测到归属和提高跨语言问答系统的归属度。

May, 2023

使用知识图谱评估复杂问题回答和归因的大型语言模型基准

使用知识图谱为问题 - 答案对自动生成不同类别的归因，并引入细分类型（支持性、不足、矛盾和不相关）来衡量归因，评估现有评估方法在细致归因设置下的表现较差，使用人工注释验证的 CAQA 基准为选择和开发 LLM 归因评估器提供了有前景的工具。

Jan, 2024

让大型语言模型能够生成带有引文的文本

这项研究介绍了 ALCE，一个自动化 LLMs 引用评估的评测基准，通过自动度量三个维度 - 流畅度、正确性和引用质量，强调了更好的检索器、长文本 LLMs 等方向的改善空间。

May, 2023

自动评估方法在面向指导型语言模型中的可靠性研究

我们对基于文本重叠和大型语言模型判断的自动化方法在广泛任务和跨语言环境中的可靠性进行了研究，发现自动评估方法与人类评估者之间的相关性在任务类型不同的情况下存在相当大的变异性。尽管自动评估方法在特定条件下可以近似人类判断，但其可靠性高度依赖于上下文。这些发现强化了我们在开发和评估面向指导的大型语言模型时如何应用和解释自动化方法的理解。

Feb, 2024

评估检索增强型大语言模型的归属和流畅度平衡

研究探讨了在知识密集型对话设置中，提示检索证据的 LLMs 的流畅度与归属之间的关系，并提出了改善 LLMs 总体质量的方法。实验结果显示，更大的模型在流畅度和属性方面表现更好，并且使用 top-k 检索可以提高属性，但有损于流畅度。研究提出了一种可使较小模型赶上更大模型并保持 top-k 检索优势的方法。

Feb, 2023

大型语言模型作为自动对话评估器的有效性综合分析

自动对话评估的研究中，大型语言模型、神经度量指标以及元评估数据集的应用，以及模型层次和维度层次的集成对评估性能的影响进行了全面的研究。

Dec, 2023