FactPICO：医学证据的简化语言摘要的事实性评估

Feb, 2024

FactPICO：医学证据的简化语言摘要的事实性评估

FactPICO: Factuality Evaluation for Plain Language Summarization of Medical Evidence

Sebastian Antony Joseph, Lily Chen, Jan Trienes, Hannah Louisa Göke, Monika Coers...

TL;DRFactPICO 是一个针对医学文本的纯文本摘要事实性基准，通过细致评估和专家的自然语言解释，评估了基于 LLMs 的三种纯文本摘要生成模型（GPT-4，Llama-2 和 Alpaca）生成的 345 个 RCT 摘要的事实性，解析了 RCT 的关键元素（人口、干预措施、比较、结果）以及相关发现的准确性，也评估了 LLMs 添加的额外信息（如解释）的准确性，研究发现纯文本医学证据的摘要仍然具有挑战性，尤其是在简单性和事实性之间的平衡，并且现有的度量方法与专家判断在实例级别上的相关性较差。

Abstract

plain language summarization with LLMs can be useful for improving textual accessibility of technical content. But how factual are these summaries in a high-stakes domain like medicine? This paper presents FactPICO, a factuality benchmark for →

plain language summarization factuality benchmark medical texts randomized controlled trials evidence-based medicine

发现论文，激发创造

在大语言模型时代的摘要一致性评估

自动产生的摘要与源文件的实际不一致可能导致错误信息或存在风险。现有的实际一致性（FC）指标受性能、效率和可解释性的限制。大型语言模型（LLM）的最新进展在文本评估方面表现出了显著的潜力，但其在总结中评估 FC 的效果尚未充分探索。本文首先通过引入 TreatFact 数据集来填补这一空白，该数据集包含由领域专家进行 FC 注释的 LLM 生成的临床文本摘要。此外，我们在新闻和临床领域对 11 个 LLM 进行了 FC 评估，并分析了模型大小、提示、预训练和微调数据的影响。研究发现，尽管专有模型在任务上占主导地位，但开源 LLM 仍然落后。然而，通过增加模型大小、扩展预训练数据和开发精心策划的微调数据，有潜力提升开源 LLM 的性能。在 TreatFact 上的实验表明，先前的方法和基于 LLM 的评估器都无法捕捉到临床摘要中的实际不一致性，给 FC 评估提出了新的挑战。

Feb, 2024

FENICE: 基于自然语言推理和主张提取的摘要真实性评估

最近在文本摘要方面的最新进展，尤其是随着大型语言模型（LLM）的出现，其表现出色。然而，存在一个明显的挑战，即大量自动生成的摘要存在事实不一致的问题，如幻觉。针对这个问题，出现了各种检验摘要一致性的方法。然而，这些新引入的度量指标都存在一些限制，包括解释性的缺乏、关注短文档摘要（例如新闻文章）以及计算上的不便，尤其是基于 LLM 的度量。为了解决这些缺点，我们提出了基于自然语言推理和主张提取（FENICE）的事实性评估摘要度量。FENICE 利用了源文件中的信息和从摘要中提取的一组原子事实（称为主张）之间的一个基于 NLI 的对齐。我们的度量在事实性评估的事实上设立了一个新的标杆，即默认标准 AGGREFACT。此外，我们通过进行长篇摘要的人工注释过程，将我们的评估扩展到了更具挑战性的环境中。

Mar, 2024

使用大型语言模型评估摘要的事实一致性

本研究探索采用大型语言模型 (DLM) 来评估摘要的事实一致性，并通过对 GPT 模型系列和 Flan-T5 等不同类型的 DLM 进行分析，以及对多种提示方法进行研究，最终证明了直接针对 DLM 的提示方法在各项测试中均优于当前最先进的摘要事实性系统。

May, 2023

临床摘要中事实对齐的合成模仿编辑反馈

使用 ChatGPT 生成高质量反馈数据，从而改善临床笔记概括任务中的事实一致性，并展示了 GPT 编辑在人类对齐中的潜在用途，特别是从事实角度。

Oct, 2023

通过摘要评估大型语言模型的事实一致性

本文提出了一个新的大语言模型（LLMs）准确性检验基准，称之为 FIB（Factual Inconsistency Benchmark），并在 23 个 1B 到 176B 参数的不同模型家族中评估了其实用性。结果表明，现有的 LLMs 通常将更高的分数分配给事实上一致的总结，但如果不一致的总结在文档中出现，那么 LLMs 将会赋予这些不一致的总结比事实上一致的总结更高的分数。

Nov, 2022

摘要中事实不一致的识别：向大型语言模型的有效利用迈进

通过零样本策略，本研究提出并评估了三种方式来解决实际的矛盾检测问题，并研究了如何精简高效且功效强大的大型语言模型。实验结果表明，适当设计的范式可以使大型语言模型在无需训练的情况下解决此问题，平均超越强训练基线 2.8％。为了进一步提高实用性，我们提出了训练策略，旨在通过高准确性一次对整个摘要进行评分的方式来精简开源大型语言模型，其效果优于较大的零样本大型语言模型，成为一种有效且高效的可即用得分器。

Feb, 2024

Factcheck-GPT: 端到端的细粒度文档级事实检查与纠正 LLM 输出

该研究介绍了一种针对大型语言模型输出进行事实准确性注释的综合解决方案，包括多阶段的注释方案和注释工具的设计，以识别 LLM 输出中的可验证性和事实不一致性，并构建了三个层次粒度的开放领域文档级事实性基准。初步实验结果表明，已有工具在识别错误声明方面存在困难，最佳 F1=0.53。

Nov, 2023

临床文本摘要：大型语言模型的应用能超越人类专家

在本研究中，我们采用八个大型语言模型，在六个数据集和四个不同的摘要任务（放射学报告、患者问题、进展记录和医生 - 患者对话）上应用领域适应方法，系统评估了它们的效果，而且展示出最佳适应的大型语言模型的摘要相较于人工摘要在完整性和正确性方面更可取。此外，我们还将传统的自然语言处理指标与医生评分进行了相关性分析，以提高对这些指标与医生喜好的理解。最终，我们的研究证明了大型语言模型在多个临床文本摘要任务中超越人工专家，这意味着将大型语言模型整合到临床工作流程中可以减轻文档负担，使临床医生能够更多关注个性化患者护理和其他医学中不可替代的人工环节。

Sep, 2023

科学摘要评估的反思：在面向因素的基准上建立可解释指标

本研究分析和评估了预训练的大型语言模型在科学文献摘要中的应用，并介绍了 Facet-aware Metric 评估方法以及 Facet-based 科学摘要数据集的构建。研究表明，Facet-aware Metric 提供了一种更加合理的科学摘要评估方法，而在科学领域，经过精细调整的较小模型可以与大型语言模型竞争，但大型语言模型在学习科学领域中的上下文信息方面存在局限性，需要进一步改进。

Feb, 2024

利用神经多文档摘要生成（事实性的？）随机对照试验纪要：实验研究

本研究中，我们探讨了使用现代神经模型从多个试验报告中自动生成叙述性生物医学证据摘要的问题，并使用 Cochrane 协作成员先前进行的系统性评论的相关文章摘要的抽象概述来评估现代神经模型进行抽象总结的效果。我们征求了医学专业人员对生成的摘要进行评估，并发现现代总结系统产生了一致流畅和相关的概述，但并非总是准确。我们提出新的方法通过明确划分传达关键发现的输入片段、强调大规模和高质量试验报告等领域特定的模型来信息摘要，发现这些策略适度提高了生成摘要的准确性。最后，我们提出了一种新的方法来自动生成叙述性证据综述的事实性评估，使用可推断报道发现方向的模型。

Aug, 2020