通过对比学习缓解摘要文本生成中的曝光偏差

Aug, 2021

通过对比学习缓解摘要文本生成中的曝光偏差

Alleviating Exposure Bias via Contrastive Learning for Abstractive Text Summarization

Shichao Sun, Wenjie Li

TL;DR提出使用对比学习来减少低质量文摘的可能性，同时增加黄金文摘的可能性，以解决 Encoder-decoder 模型在训练和推理中的偏差问题，并在实验中证明这种方法有效地提高了最先进模型在不同数据集上的性能。

Abstract

encoder-decoder models have achieved remarkable success in abstractive text summarization, which aims to compress one or more documents into a shorter version without the loss of the essential content. Unfortunately, these models mostly suffer a discrepancy between training and inferen

encoder-decoder models abstractive text summarization exposure bias problem contrastive learning model performance

发现论文，激发创造

文本摘要的序列级对比学习

本文提出了一种对比学习模型，用于文本摘要的有监督抽象，通过将文档、其黄金摘要和模型生成的摘要视为同一平均表示的不同视图，并在训练过程中最大化它们之间的相似性，从而改进了强序列到序列的文本生成模型（即 BART）。人类评估也显示，我们的模型与没有对比目标的对应模型相比，实现了更好的忠实度评分。

Sep, 2021

CLIFF: 用对比学习提高摘要的忠实度和事实性

通过对比学习和负样本生成，提出一个能够生成与给定文章相符的抽象摘要的方法，并使用 QA 验证和人类评判证明其能够更准确地反映事实。

Sep, 2021

抽象文本摘要中的事实不一致问题：一项调查

研究表明，使用神经编码器 - 解码器模型等抽象方法能够更好的进行生成摘要，但是由于摘要的抽象性较高，导致文章中存在失真和伪造的问题，因此当前的研究主要集中在设计新的评估算法和开发新的摘要系统以解决这一问题。本文综合评述了这些基于事实的评估方法和文本摘要模型。

Apr, 2021

在抽象文本摘要中利用表征偏差进行数据去噪

本文旨在离散化抽象文本摘要模型的向量空间，以理解输入嵌入空间和模型编码空间之间的特征学习。我们通过聚类技术来学习模型样本空间的多样性，以及数据点如何从嵌入空间映射到编码空间，从而提出了一种度量方法来过滤冗余数据点，使模型更强大且更节约数据。我们使用 Rouge、BERTScore、FEQA 和金字塔分数等定量指标来对我们提出的方法进行基准测试，并量化阻碍模型从各种输入样本中学习多样性的原因。

Dec, 2023

基于课程指导的抽象摘要

本文提出两个方法以弥补 Transformer-based summarization 模型在内容选择方面表现不佳和训练策略效率不高的缺陷，使得模型可以更好的理解要点，同时引入课程学习的方法提高了训练速度和质量，并用 Reddit TIFU 数据集和其他三个跨领域总结测量我们的模型的有效性，同时进行了人类评估表明所提出的方法在流畅性、信息量和整体质量等质量标准上具有良好的效果。

Feb, 2023

文本摘要中的抽象化改进

提出使用上下文相关网络和预训练的语言模型来提高抽象文本摘要的生成水平和使用新颖度度量来优化生成的摘要，从而实现比现有方法更高水平的摘要生成。

Aug, 2018

为生成事实一致的文本摘要进行反事实去偏置

本研究提出了一种名为 CoFactSum 的去偏见框架，通过反事实估计，减轻了生成摘要时的语言偏见和不相关偏见的影响，并使用动态的偏差度调整机制。实验结果表明，与几种基线方法相比，CoFactSum 在提高生成的摘要的事实一致性方面具有显著效果。

May, 2023

通过对比奖励学习提高抽象摘要生成的准确性

通过对比学习框架和事实度指标的最新发展，本文提出了一种简单而有效的对比学习框架，实证研究表明该框架能够通过对比奖励学习从事实度指标的反馈中学习，从而在人类评估中生成更加符合事实的摘要，这表明学习和评估算法的进一步发展可直接提供更加符合事实的摘要。

Jul, 2023

利用摘要构建对比样本，用于有限标注的文本分类

本文研究了如何使用基于文本总结的数据扩增方法来构建语言任务的对比样本，从而通过有限的标注数据提高文本表示效果，并配合 Mixsum 正则化方法，实验结果显示所提出的对比学习框架在真实世界的文本分类数据集上表现出很好的效果。

Apr, 2021

通过交替对抗学习降低新闻摘要中的主导偏见

该研究提出了一种新的技术来减少新闻文章中的领导偏见，使自动文摘模型更加关注内容语义。实验表明此方法可以有效地减少模型学习到的领导偏见，在分布不均匀的数据上具有更好的泛化性能，而在分布均匀的数据上效果无损。

May, 2021