摘要评分的通用规避攻击

Oct, 2022

Universal Evasion Attacks on Summarization Scoring

Wenchuan Mu, Kwan Hui Lim

TL;DR本研究针对自动摘要的评分问题进行了机器学习和逃避攻击，发现当前自动评分系统的鲁棒性较低，需要进一步改进。

Abstract

The automatic scoring of summaries is important as it guides the development of summarizers. Scoring is also complex, as it involves multiple aspects such as fluency, grammar, and even textual entailment with the

automatic scoring summarizers machine learning evasion attacks robustness

发现论文，激发创造

文本摘要中评价的重评估

本文重新评估了文本摘要的评估方法，使用最新的数据集和系统输出来评估评估指标的可靠性，并发现旧数据集上对评估指标的结论不一定适用于现代数据集和系统。

Oct, 2020

使用双重增益提高摘要系统的鲁棒性

本文旨在研究文本摘要模型对词级同义替换和噪声的鲁棒性，发现模型鲁棒性不足。为提高模型的鲁棒性，提出用语言模型生成对抗样本并在输入空间内使用这些样本多样化原始数据，同时在隐藏空间内进行流形混合操作以引入更多的编码器编码输出。测试结果表明，该方法得到了有效的改进。

Jun, 2023

重温科技论文摘要评估

本篇论文专门研究了用于科技文章摘要的评估度量，对 ROUGE 的效果进行广泛分析，发现 ROUGE 不太可靠，提出了 SERA 作为科技文章摘要评估的一种有效指标。

Apr, 2016

文本摘要技术取得了哪些成就？

通过使用多维度质量度量标准（MQM），我们手动量化了 10 种代表性汇总模型中 8 种主要错误来源，发现在相似设置下，提取式汇总器总体上比其抽象式汇总器表现更好，尤其是在忠实度和事实一致性方面。同时，预训练技术，特别是序列到序列的预训练技术，对于提高文本汇总效果非常有效，其中 BART 效果最好。

Oct, 2020

通过语义相似性学习能更好地实现抽象摘要化

本文探讨基于预训练语言模型的摘要生成模型。通过与基准数据集 CNN/DM 的参考摘要的人工评估比较，发现相对于参考摘要而言，由最新的语言模型 BART 生成更高分的摘要。我们对 CNN/DM 数据集内在特性、预训练语言模型的进展及其对训练数据的泛化能力进行了分析，最终提出了对于提高抽象化摘要生成的学习方法的思考。

Feb, 2020

重新审视自动摘要评估指标的系统层面相关性

本文探讨了自动文摘评估指标能够准确复制人类总结质量判断的可靠性，并提出了对现有评估体系的变更，以改善两个方面的偏差，这两个方面分别是评估指标使用的方法与实际评估系统的方式不一致，以及通过只计算小得分差距的系统之间的相关性来计算相关性。通过此研究，提出了收集更多高质量的人类判断和在系统得分差距小的情况下改进自动评估指标的必要性。

Apr, 2022

基于关注要点和蕴含的多目标增强摘要

通过强化学习方法，采用 ROUGESal 和 Entail 两种新的奖励函数优化传统指标 ROUGE，实现多重奖励同时优化的方式来提高摘要生成的效果。实验证明，该方法在 CNN/Daily Mail 数据集上达到了新的最高性能水平，并在测试集合 DUC-2002 中有很大的提高。

Apr, 2018

答案联合！增强摘要模型的无监督度量

使用强化学习的抽象化概括方法已经被提出来克服传统极大似然估计的限制，提出了一些使用问题回答作为替代评价指标的模型，并在人工和自动评价指标上取得了较大的提升。

Sep, 2019

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

BRIO：让抽象化摘要更有序

提出了一种新的非确定性分布训练方法，通过根据其质量分配概率质量到不同的候选摘要，从而解决确定性分布训练方法在推断时导致的性能下降问题，在 CNN/DailyMail 和 XSum 数据集上均取得了优于现有方法的最优结果，并且与质量水平更相关的评估摘要的概率评估。

Mar, 2022