基于摘要生成的数据增强方法用于文档分类

MMDec, 2023

基于摘要生成的数据增强方法用于文档分类

Summarization-based Data Augmentation for Document Classification

Yueguan Wang, Naoki Yoshinaga

TL;DR通过使用 SUMMaug，一种简单但有效的基于摘要的数据增强方法，我们能够解决预训练语言模型在理解长文本（如文档）时遇到的数据稀疏问题，并在文档分类任务中取得了稳健性和准确性上的优势。

Abstract

Despite the prevalence of pretrained language models in natural language understanding tasks, understanding lengthy text such as document is still challenging due to the data sparseness problem. Inspired by that

pretrained language models data sparseness problem summarization-based data augmentation document classification curriculum learning

发现论文，激发创造

AugSumm：利用大型语言模型生成的合成标签进行通用语音摘要

通过使用大型语言模型（LLM）作为人工标注者的代理，本研究提出了一种名为 AugSumm 的方法来生成用于训练和评估的增广摘要，通过在 ChatGPT 上生成的合成摘要验证其质量，并在训练和评估中利用这些合成摘要，实验证明在合成摘要上进行预训练并在 GT 摘要上进行微调可以改善 ROUGE-L 指标。

Jan, 2024

抽象式摘要作为文档级事件检测的扩充

使用抽象文本摘要作为增强方法，着重于在文档级事件检测上弥合浅层模型和深层模型之间的性能差距，使用 RoBERTa-base 和线性 SVM 对分类进行实验，结果表明，文档标题的使用不但能够增强分类性能，还能提高 RoBERTa 的 F1 分数。

May, 2023

利用摘要构建对比样本，用于有限标注的文本分类

本文研究了如何使用基于文本总结的数据扩增方法来构建语言任务的对比样本，从而通过有限的标注数据提高文本表示效果，并配合 Mixsum 正则化方法，实验结果显示所提出的对比学习框架在真实世界的文本分类数据集上表现出很好的效果。

Apr, 2021

通过文本分类改进多文档摘要

本文提出了一种叫做 TCSum 的新型摘要系统，它借助丰富的文本分类数据来改善多文档摘要的性能，通过将文档映射到分布式表示，利用分类结果来生成不同风格的摘要。实验结果表明，TCSum 在通用多文档摘要数据集上实现了最先进的性能，并具有在不同文本类别的情况下捕捉摘要样式变化的能力。

Nov, 2016

通过数据综合，增强和课程来缓解抽象摘要中的数据匮乏

通过数据合成、数据增强、课程学习等方法，不需要额外的数据，即可改善抽象摘要模型的性能。研究表明，采用这三种方法可以在两个摘要模型和两个不同的小数据集上改善抽象摘要。此外，当分别应用和组合使用这些技术时，它们都可以提高性能。

Sep, 2021

通过全局增强方法提高短文本分类效果

本文研究了不同的文本扩充方法在分类应用中的影响，通过使用包括社交媒体和新闻文章在内的三个数据集，我们发现基于 Word2vec 的文本扩充是一种可行的选择，并且使用 mixup 可以进一步提高性能，并降低过拟合的影响。同时，通过翻译服务进行往返翻译的效果不如其他方法好，并且成本较高，适用性较差。

Jul, 2019

使用双重增益提高摘要系统的鲁棒性

本文旨在研究文本摘要模型对词级同义替换和噪声的鲁棒性，发现模型鲁棒性不足。为提高模型的鲁棒性，提出用语言模型生成对抗样本并在输入空间内使用这些样本多样化原始数据，同时在隐藏空间内进行流形混合操作以引入更多的编码器编码输出。测试结果表明，该方法得到了有效的改进。

Jun, 2023

文本分类数据增强调查

本文旨在提高机器学习分类系统的泛化能力，通过对数据进行转换的方式来人工创建训练数据，从而增强数据的多样性，该文章就在「文本分类」中，对数据增强方法及其应用目标做了详细概述与分类，最终针对相关领域，提出建设性思路方向。

Jul, 2021

反事实数据增强改进抽象摘要的真实性

该文章介绍了一种基于对抗数据增广的方法，用于提高 Abstractive summarization system 的 factual correctness, 相关方法包括将同一或不同类别的实体或名词的 WordNet hypernyms 进行替换，实验证明，使用我们的方法对 CNN/Dailymail 和 XSum 等数据集进行训练，可将 factual correctness 平均提高约 2.5 个点。

May, 2022

抽象的面向查询的多文档摘要生成的数据增强

该研究介绍了两个 QMDS 训练数据集，这些数据集具有互补的性质并使用新的层次编码器建立了基于端的神经网络模型，这些模型不仅在自动度量上表现出了优异的结果，而且在人类评估中也表现出了优异的结果。

Mar, 2021