通过使用大型语言模型(LLM)作为人工标注者的代理,本研究提出了一种名为 AugSumm 的方法来生成用于训练和评估的增广摘要,通过在 ChatGPT 上生成的合成摘要验证其质量,并在训练和评估中利用这些合成摘要,实验证明在合成摘要上进行预训练并在 GT 摘要上进行微调可以改善 ROUGE-L 指标。
Jan, 2024
使用抽象文本摘要作为增强方法,着重于在文档级事件检测上弥合浅层模型和深层模型之间的性能差距,使用 RoBERTa-base 和线性 SVM 对分类进行实验,结果表明,文档标题的使用不但能够增强分类性能,还能提高 RoBERTa 的 F1 分数。
May, 2023
本文研究了如何使用基于文本总结的数据扩增方法来构建语言任务的对比样本,从而通过有限的标注数据提高文本表示效果,并配合 Mixsum 正则化方法,实验结果显示所提出的对比学习框架在真实世界的文本分类数据集上表现出很好的效果。
Apr, 2021
本文提出了一种叫做 TCSum 的新型摘要系统,它借助丰富的文本分类数据来改善多文档摘要的性能,通过将文档映射到分布式表示,利用分类结果来生成不同风格的摘要。实验结果表明,TCSum 在通用多文档摘要数据集上实现了最先进的性能,并具有在不同文本类别的情况下捕捉摘要样式变化的能力。
Nov, 2016
通过数据合成、数据增强、课程学习等方法,不需要额外的数据,即可改善抽象摘要模型的性能。研究表明,采用这三种方法可以在两个摘要模型和两个不同的小数据集上改善抽象摘要。此外,当分别应用和组合使用这些技术时,它们都可以提高性能。
Sep, 2021
本文研究了不同的文本扩充方法在分类应用中的影响,通过使用包括社交媒体和新闻文章在内的三个数据集,我们发现基于 Word2vec 的文本扩充是一种可行的选择,并且使用 mixup 可以进一步提高性能,并降低过拟合的影响。同时,通过翻译服务进行往返翻译的效果不如其他方法好,并且成本较高,适用性较差。
Jul, 2019
本文旨在研究文本摘要模型对词级同义替换和噪声的鲁棒性,发现模型鲁棒性不足。为提高模型的鲁棒性,提出用语言模型生成对抗样本并在输入空间内使用这些样本多样化原始数据,同时在隐藏空间内进行流形混合操作以引入更多的编码器编码输出。测试结果表明,该方法得到了有效的改进。
Jun, 2023
本文旨在提高机器学习分类系统的泛化能力,通过对数据进行转换的方式来人工创建训练数据,从而增强数据的多样性,该文章就在「文本分类」中,对数据增强方法及其应用目标做了详细概述与分类,最终针对相关领域,提出建设性思路方向。
Jul, 2021
该文章介绍了一种基于对抗数据增广的方法,用于提高 Abstractive summarization system 的 factual correctness, 相关方法包括将同一或不同类别的实体或名词的 WordNet hypernyms 进行替换,实验证明,使用我们的方法对 CNN/Dailymail 和 XSum 等数据集进行训练,可将 factual correctness 平均提高约 2.5 个点。
May, 2022
该研究介绍了两个 QMDS 训练数据集,这些数据集具有互补的性质并使用新的层次编码器建立了基于端的神经网络模型,这些模型不仅在自动度量上表现出了优异的结果,而且在人类评估中也表现出了优异的结果。
Mar, 2021