跨领域评估零样本摘要生成器的真实性

Feb, 2024

跨领域评估零样本摘要生成器的真实性

Evaluating the Factuality of Zero-shot Summarizers Across Varied Domains

Sanjana Ramprasad, Kundan Krishna, Zachary C Lipton, Byron C Wallace

TL;DR大型语言模型（LLM）的零摘要生成与人工编写的参考摘要相媲美，我们评估了零摘要生成摘要在生物医学文章等专业领域的实际性，并通过领域专家注释识别总结中的不一致性。

Abstract

Recent work has shown that large language models (LLMs) are capable of generating summaries zero-shot (i.e., without explicit supervision) that, under human assessment, are often comparable or even preferred to manually composed reference summaries. However, this prior work has focusse

large language models zero-shot summarization specialized domains factuality biomedical articles

发现论文，激发创造

总结（几乎）已死

大型语言模型在总结任务中表现出令人满意的性能，超过了参考摘要的基准，人类评估者明显偏好大型语言模型生成的摘要而不是人工撰写的摘要和经过微调的模型生成的摘要，因为大型语言模型生成的摘要具有更好的事实连贯性和更少的外在幻觉实例。

Sep, 2023

摘要中事实不一致的识别：向大型语言模型的有效利用迈进

通过零样本策略，本研究提出并评估了三种方式来解决实际的矛盾检测问题，并研究了如何精简高效且功效强大的大型语言模型。实验结果表明，适当设计的范式可以使大型语言模型在无需训练的情况下解决此问题，平均超越强训练基线 2.8％。为了进一步提高实用性，我们提出了训练策略，旨在通过高准确性一次对整个摘要进行评分的方式来精简开源大型语言模型，其效果优于较大的零样本大型语言模型，成为一种有效且高效的可即用得分器。

Feb, 2024

GPT-3 时代的新闻摘要和评估

本文研究 GPT-3 等零样本学习模型对新闻文本摘要的影响，发现零样本模型的摘要被人类普遍接受，且不会出现数据特异性问题，并探讨零样本摘要的评估问题和后续研究挑战。

Sep, 2022

新闻摘要的大型语言模型基准测试

通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估，我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键，并通过从自由职业作家收集的高质量摘要进行人类评估，得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。

Jan, 2023

USB：跨任务和领域的统一摘要基准

本研究提出一个多维理解摘要的基准测试，并在其上比较了多种模型的性能，发现中等规模的微调模型在多个任务上始终优于更大的几次提示语言模型。同时发现，对于某些任务，训练数据的数量比其来源领域更重要，而对于其他任务，尽管数据量有限，但特定领域的数据更为有益。

May, 2023

借助中间微调和数据增强改善零和少样本抽象摘要

本论文提出了在数据集特定方式下通过对预训练模型进行微调以实现摘要生成的新型通用方法 - WikiTransfer，并使用循环全球翻译的数据扩增和正则化来提高性能，最终在 CNN-DailyMail 数据集上取得了最先进的性能

Oct, 2020

通过关联改写视角评估零样本主动摘要的 LLM 模型

通过评估大型语言模型对原始和扰动数据集上的摘要性能，我们使用关联改写方法来测量大型语言模型作为摘要器的稳健性，并发现大型语言模型对于扰动文章的摘要结果不一致，需要进一步改进。

Jun, 2024

在大语言模型时代的摘要一致性评估

自动产生的摘要与源文件的实际不一致可能导致错误信息或存在风险。现有的实际一致性（FC）指标受性能、效率和可解释性的限制。大型语言模型（LLM）的最新进展在文本评估方面表现出了显著的潜力，但其在总结中评估 FC 的效果尚未充分探索。本文首先通过引入 TreatFact 数据集来填补这一空白，该数据集包含由领域专家进行 FC 注释的 LLM 生成的临床文本摘要。此外，我们在新闻和临床领域对 11 个 LLM 进行了 FC 评估，并分析了模型大小、提示、预训练和微调数据的影响。研究发现，尽管专有模型在任务上占主导地位，但开源 LLM 仍然落后。然而，通过增加模型大小、扩展预训练数据和开发精心策划的微调数据，有潜力提升开源 LLM 的性能。在 TreatFact 上的实验表明，先前的方法和基于 LLM 的评估器都无法捕捉到临床摘要中的实际不一致性，给 FC 评估提出了新的挑战。

Feb, 2024

关于大型语言模型中的位置偏差的总结化问题

对于大型语言模型，在抽象摘要任务中表现出色，但在多文档问答中存在输入上下文偏差，导致摘要内容分散，影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。

Oct, 2023

研究事实验证中的零样本和少样本泛化能力

我们研究了事实验证（FV）的零样本和小样本泛化，目标是将在资源丰富领域（如维基百科）上训练的 FV 模型推广到缺乏人类注释的低资源领域。通过构建包含 11 个 FV 数据集的基准数据集集合，我们对这些 FV 数据集之间的泛化进行了实证分析，发现现有模型的泛化能力较差。我们的分析揭示了几个影响泛化的因素，包括数据集大小、证据长度和索赔类型。最后，我们展示了两个改进泛化能力的方法：1）通过预训练在特定领域中引入领域知识，2）通过索赔生成自动生成训练数据。

Sep, 2023