摘要评分的通用规避攻击
本文旨在研究文本摘要模型对词级同义替换和噪声的鲁棒性,发现模型鲁棒性不足。为提高模型的鲁棒性,提出用语言模型生成对抗样本并在输入空间内使用这些样本多样化原始数据,同时在隐藏空间内进行流形混合操作以引入更多的编码器编码输出。测试结果表明,该方法得到了有效的改进。
Jun, 2023
本篇论文专门研究了用于科技文章摘要的评估度量,对 ROUGE 的效果进行广泛分析,发现 ROUGE 不太可靠,提出了 SERA 作为科技文章摘要评估的一种有效指标。
Apr, 2016
通过使用多维度质量度量标准(MQM),我们手动量化了 10 种代表性汇总模型中 8 种主要错误来源,发现在相似设置下,提取式汇总器总体上比其抽象式汇总器表现更好,尤其是在忠实度和事实一致性方面。同时,预训练技术,特别是序列到序列的预训练技术,对于提高文本汇总效果非常有效,其中 BART 效果最好。
Oct, 2020
本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较,发现相对于参考摘要而言,由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析,最终提出了对于提高抽象化摘要生成的学习方法的思考。
Feb, 2020
本文探讨了自动文摘评估指标能够准确复制人类总结质量判断的可靠性,并提出了对现有评估体系的变更,以改善两个方面的偏差,这两个方面分别是评估指标使用的方法与实际评估系统的方式不一致,以及通过只计算小得分差距的系统之间的相关性来计算相关性。通过此研究,提出了收集更多高质量的人类判断和在系统得分差距小的情况下改进自动评估指标的必要性。
Apr, 2022
通过强化学习方法,采用 ROUGESal 和 Entail 两种新的奖励函数优化传统指标 ROUGE,实现多重奖励同时优化的方式来提高摘要生成的效果。实验证明,该方法在 CNN/Daily Mail 数据集上达到了新的最高性能水平,并在测试集合 DUC-2002 中有很大的提高。
Apr, 2018
使用强化学习的抽象化概括方法已经被提出来克服传统极大似然估计的限制,提出了一些使用问题回答作为替代评价指标的模型,并在人工和自动评价指标上取得了较大的提升。
Sep, 2019
基于大型语言模型的方法用于评估文本摘要,与人工评估相比,其结果接近,并且比常用的自动度量方法更一致。因此,我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架,具有广泛的关注度。
Jun, 2024
提出了一种新的非确定性分布训练方法,通过根据其质量分配概率质量到不同的候选摘要,从而解决确定性分布训练方法在推断时导致的性能下降问题, 在 CNN/DailyMail 和 XSum 数据集上均取得了优于现有方法的最优结果,并且与质量水平更相关的评估摘要的概率评估。
Mar, 2022