mFACE: 多语言事实一致性评估自动摘要
该研究介绍了 WikiLingua 项目,这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出18种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系,并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法,取得了显著的性能提升。
Oct, 2020
本文提出了一种解决摘要生成模型中可能存在错误信息的方法,策略包括评估指标度量、新型学习算法、人工评估等,并通过大量实验证明该方法对提高信息事实准确性和提高摘要整体质量都非常有效。
May, 2021
本文研究了神经抽象摘要模型在生成的摘要与其原文存在事实上的不一致可能性,提出使用NLI模型进行辨别以及如何借助数据生成来提升辨别效果,最终使用Falsesum数据集完成了四个基准测试并有所提升。
May, 2022
本文通过对长文档的人工精细注释对抽象大纲概述系统进行了评估,并显示了 ROUGE 在长文档摘要内容相关性评估方面的优越性,并提出了发展事实一致性度量的方向。最后,我们发布了我们注释的长文档数据集,希望能为更广泛的概述设置开发度量做出贡献。
Oct, 2022
本文提出了一个由多种最新事实一致性模型组合而成的方案,用于检测流行摘要数据集中的问题。我们发布了具有改进真实一致性的SummFC数据集,并证明在几乎所有质量方面,使用该数据集训练的摘要生成模型都能够获得更好的性能。我们认为SummFC数据集应成为评估摘要系统的有效基准。
Oct, 2022
本文提出了一个新的大语言模型(LLMs)准确性检验基准,称之为FIB(Factual Inconsistency Benchmark),并在23个1B到176B参数的不同模型家族中评估了其实用性。结果表明,现有的LLMs通常将更高的分数分配给事实上一致的总结,但如果不一致的总结在文档中出现,那么LLMs将会赋予这些不一致的总结比事实上一致的总结更高的分数。
Nov, 2022
本研究探索采用大型语言模型(DLM)来评估摘要的事实一致性,并通过对GPT模型系列和Flan-T5等不同类型的DLM进行分析,以及对多种提示方法进行研究,最终证明了直接针对DLM的提示方法在各项测试中均优于当前最先进的摘要事实性系统。
May, 2023
通过零样本策略,本研究提出并评估了三种方式来解决实际的矛盾检测问题,并研究了如何精简高效且功效强大的大型语言模型。实验结果表明,适当设计的范式可以使大型语言模型在无需训练的情况下解决此问题,平均超越强训练基线2.8%。为了进一步提高实用性,我们提出了训练策略,旨在通过高准确性一次对整个摘要进行评分的方式来精简开源大型语言模型,其效果优于较大的零样本大型语言模型,成为一种有效且高效的可即用得分器。
Feb, 2024