mFACE: 多语言事实一致性评估自动摘要

Dec, 2022

mFACE: 多语言事实一致性评估自动摘要

mFACE: Multilingual Summarization with Factual Consistency Evaluation

Roee Aharoni, Shashi Narayan, Joshua Maynez, Jonathan Herzig, Elizabeth Clark...

TL;DR本文探讨了利用基于事实一致性评估模型的数据过滤和控制生成两种方法来改善跨语言自动摘要的结果，针对语义幻觉生成的问题在提高多语言自动摘要性能方面取得了较好的结果。

Abstract

abstractive summarization has enjoyed renewed interest in recent years, thanks to pre-trained language models and the availability of large-scale datasets. Despite promising results, current models still suffer from generating factually inconsistent summaries, reducing their utility fo

发现论文，激发创造

WikiLingua：一种用于跨语言主旨提取的新基准数据集

该研究介绍了 WikiLingua 项目，这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出18种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系，并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法，取得了显著的性能提升。

Oct, 2020

通过问答提高摘要生成的事实一致性

本文提出了一种解决摘要生成模型中可能存在错误信息的方法，策略包括评估指标度量、新型学习算法、人工评估等，并通过大量实验证明该方法对提高信息事实准确性和提高摘要整体质量都非常有效。

May, 2021

通过反事实估计对文本摘要的实际一致性评估

提出一种基于反事实估算的新型度量标准，用于评估文本摘要的事实一致性，能够帮助改善与人类判断的相关性和使用的便利性。

Aug, 2021

通过生成文档级别 NLI 实例识别摘要中的事实不一致性

本文研究了神经抽象摘要模型在生成的摘要与其原文存在事实上的不一致可能性，提出使用NLI模型进行辨别以及如何借助数据生成来提升辨别效果，最终使用Falsesum数据集完成了四个基准测试并有所提升。

May, 2022

强大长文摘要化还有多远？

本文通过对长文档的人工精细注释对抽象大纲概述系统进行了评估，并显示了 ROUGE 在长文档摘要内容相关性评估方面的优越性，并提出了发展事实一致性度量的方向。最后，我们发布了我们注释的长文档数据集，希望能为更广泛的概述设置开发度量做出贡献。

Oct, 2022

质疑摘要数据集的有效性并提高其事实一致性

本文提出了一个由多种最新事实一致性模型组合而成的方案，用于检测流行摘要数据集中的问题。我们发布了具有改进真实一致性的SummFC数据集，并证明在几乎所有质量方面，使用该数据集训练的摘要生成模型都能够获得更好的性能。我们认为SummFC数据集应成为评估摘要系统的有效基准。

Oct, 2022

通过摘要评估大型语言模型的事实一致性

本文提出了一个新的大语言模型（LLMs）准确性检验基准，称之为FIB（Factual Inconsistency Benchmark），并在23个1B到176B参数的不同模型家族中评估了其实用性。结果表明，现有的LLMs通常将更高的分数分配给事实上一致的总结，但如果不一致的总结在文档中出现，那么LLMs将会赋予这些不一致的总结比事实上一致的总结更高的分数。

Nov, 2022

使用大型语言模型评估摘要的事实一致性

本研究探索采用大型语言模型(DLM)来评估摘要的事实一致性，并通过对GPT模型系列和Flan-T5等不同类型的DLM进行分析，以及对多种提示方法进行研究，最终证明了直接针对DLM的提示方法在各项测试中均优于当前最先进的摘要事实性系统。

May, 2023

在摘要模型中调整似然函数以求得一致性

通过校准概率与自然语言推理模型一致性得分之间的关系，我们提出了一种改进抽象文本摘要模型的方法，该方法确保所生成的摘要更加一致且质量更高。

Oct, 2023

摘要中事实不一致的识别:向大型语言模型的有效利用迈进

通过零样本策略，本研究提出并评估了三种方式来解决实际的矛盾检测问题，并研究了如何精简高效且功效强大的大型语言模型。实验结果表明，适当设计的范式可以使大型语言模型在无需训练的情况下解决此问题，平均超越强训练基线2.8％。为了进一步提高实用性，我们提出了训练策略，旨在通过高准确性一次对整个摘要进行评分的方式来精简开源大型语言模型，其效果优于较大的零样本大型语言模型，成为一种有效且高效的可即用得分器。

Feb, 2024