研究生成文本中细粒度引文评估：忠实度度量的比较分析

Jun, 2024

研究生成文本中细粒度引文评估：忠实度度量的比较分析

Towards Fine-Grained Citation Evaluation in Generated Text: A Comparative Analysis of Faithfulness Metrics

Weijia Zhang, Mohammad Aliannejadi, Yifei Yuan, Jiahuan Pei, Jia-Hong Huang...

TL;DR基于综合评估框架的结果显示，没有一个单一的度量标准在所有评估中始终优秀，揭示了细颗粒度支持评估的复杂性，因此我们提供了制定更有效度量标准的实践建议。

Abstract

large language models (LLMs) often produce unsupported or unverifiable information, known as "hallucinations." To mitigate this, retrieval-augmented LLMs incorporate citations, grounding the content in verifiable

large language models hallucinations retrieval-augmented llms faithfulness metrics fine-grained support

发现论文，激发创造

概率也很重要：大型语言模型中自由文本解释的忠实度的更为准确的评估指标

评估了 Llama2 系列的少样本提示 LLMs 生成的自由文本解释在三个 NLP 任务上的忠实性，并发现我们的度量考虑了 CT 遗漏的忠实性方面。

Apr, 2024

通过事实一致性模型学习生成带有引文的答案

提出了一种利用事实一致性模型进行弱监督微调的方法，通过在生成的文本中添加引用并使用经过过滤的引文数据进行监督微调，以提高生成的内容的可验证性，并在 ALCE few-shot 引文基准上展示了超过上下文学习、纯监督微调和最先进方法的平均提高，同时在领域转移设置中表明所得到的引文生成能力在未见过的数据集上具有稳健性，并且在基线对比中具有最低的事实错误率。

Jun, 2024

长篇医疗记录摘要忠实性计量方法的元评估

本研究基于 HIV 病人的病例史，对临床文本摘要的可信度指标进行评估，从医学专业人员和患者两方面来获得实际应用价值。评估表明，大多数指标在提供与源文本相关的最小信息上，可显著提高其与人类判断的相关性。

Mar, 2023

FABLES：评估长篇书籍摘要的忠实性与内容选择

通过对虚构书籍的长篇小说生成概述的大规模人类评估，本论文揭示了长篇大语境语言模型在生成摘要时的忠实度和内容选择方面的问题，并且提出了检测生成的摘要中不忠实内容的重要性，同时也探讨了在书籍概述中与关键故事元素相关的遗漏错误以及朝末尾发生事件的系统过度强调。

Apr, 2024

模型解释性方法忠实度度量的比较研究

在研究机器学习模型内部推理过程的解释方法越来越受到关注的今天，我们发现不同的忠诚度评估指标在比较不同的解释时显示出冲突的偏好，因此我们旨在对广泛采用的忠诚度指标进行全面而比较的研究，并引入两个评估维度：诊断性和时间复杂性，根据实验结果，我们发现足够性和综合性指标具有更高的诊断性和更低的时间复杂度。

Apr, 2022

以基于基础语言模型的零 - shot 忠诚度评估文本摘要

提出一种新指标 FFLM，结合基于概率变化的方法评估生成模型的忠实度，相比于强基准模型 ChatGPT 拥有更少的参数，并在不一致性检测和忠实度评分方面表现出竞争性和优越性的改进。

Oct, 2023

FEQA: 抽象摘要中忠实度评估的问答评估框架

该研究提出了一种基于自动问答的 faithfulness 评估度量方式（FEQA），并发现当前的神经抽象概括模型存在抽象度和忠实度的权衡关系。

May, 2020

ED-FAITH: 评估对话摘要的忠实度

本文提出系统研究 faithfulness metrics 在对话摘要任务上的应用，发现对于绝大部分度量方法而言，在对话数据上的表现与人类判断的相关性较差。为了提高 faithfulness metrics 在对话摘要任务上的性能，我们还采用了 fine-tuning on in-domain dataset 和 unlikelihood training on negative samples 等技术。最后提出 T0-Score 度量方法，其在多个领域上均能稳定提高评价性能。

Nov, 2022

科学摘要评估的反思：在面向因素的基准上建立可解释指标

本研究分析和评估了预训练的大型语言模型在科学文献摘要中的应用，并介绍了 Facet-aware Metric 评估方法以及 Facet-based 科学摘要数据集的构建。研究表明，Facet-aware Metric 提供了一种更加合理的科学摘要评估方法，而在科学领域，经过精细调整的较小模型可以与大型语言模型竞争，但大型语言模型在学习科学领域中的上下文信息方面存在局限性，需要进一步改进。

Feb, 2024

在大语言模型时代的摘要一致性评估

自动产生的摘要与源文件的实际不一致可能导致错误信息或存在风险。现有的实际一致性（FC）指标受性能、效率和可解释性的限制。大型语言模型（LLM）的最新进展在文本评估方面表现出了显著的潜力，但其在总结中评估 FC 的效果尚未充分探索。本文首先通过引入 TreatFact 数据集来填补这一空白，该数据集包含由领域专家进行 FC 注释的 LLM 生成的临床文本摘要。此外，我们在新闻和临床领域对 11 个 LLM 进行了 FC 评估，并分析了模型大小、提示、预训练和微调数据的影响。研究发现，尽管专有模型在任务上占主导地位，但开源 LLM 仍然落后。然而，通过增加模型大小、扩展预训练数据和开发精心策划的微调数据，有潜力提升开源 LLM 的性能。在 TreatFact 上的实验表明，先前的方法和基于 LLM 的评估器都无法捕捉到临床摘要中的实际不一致性，给 FC 评估提出了新的挑战。

Feb, 2024