高效的抽象摘要数据增强

Jan, 2022

ExtraPhrase: Efficient Data Augmentation for Abstractive Summarization

Mengsay Loem, Sho Takase, Masahiro Kaneko, Naoaki Okazaki

TL;DR本文介绍了一种针对抽象摘要任务的低成本、高效的数据扩充策略，ExtraPhrase，通过提取性摘要和改写两个步骤来构建伪训练数据，实验证明 ExtraPhrase 相比不使用数据扩充的设置在 ROUGE 指标上提高了超过 0.50 分，并且超过了现有的方法，尤其在低资源设置下表现出明显提升，同时 ExtraPhrase 比现有方法更加成本效益高。

Abstract

Neural models trained with large amount of parallel data have achieved impressive performance in abstractive summarization tasks. However, large-scale parallel corpora are expensive and challenging to construct. In this work, we introduce a low-cost and effective strategy,

abstractive summarization data augmentation low-resource setting extraphrase training data

发现论文，激发创造

反事实数据增强改进抽象摘要的真实性

该文章介绍了一种基于对抗数据增广的方法，用于提高 Abstractive summarization system 的 factual correctness, 相关方法包括将同一或不同类别的实体或名词的 WordNet hypernyms 进行替换，实验证明，使用我们的方法对 CNN/Dailymail 和 XSum 等数据集进行训练，可将 factual correctness 平均提高约 2.5 个点。

May, 2022

通过数据综合，增强和课程来缓解抽象摘要中的数据匮乏

通过数据合成、数据增强、课程学习等方法，不需要额外的数据，即可改善抽象摘要模型的性能。研究表明，采用这三种方法可以在两个摘要模型和两个不同的小数据集上改善抽象摘要。此外，当分别应用和组合使用这些技术时，它们都可以提高性能。

Sep, 2021

低资源关键词生成的数据增强

本文提出了针对资源受限领域关键短语生成的数据增强策略，并设计了使用文章全文来改进关键短语生成技术的方法，在三个数据集上得到了显著的性能提升。

May, 2023

低资源神经机器翻译的数据增强

本研究提出了一种以数据增强为基础的方法，针对低频词汇在合成的新语境中生成新的句子对，以提高神经机器翻译系统的翻译质量。在模拟低资源环境中的实验结果显示，相对于基准和回译方法，我们的方法能够提高翻译质量，最高可提高 2.9 BLEU 分数。

May, 2017

基于短语选择与合并的抽象化多文档摘要

我们提出了一种基于抽象的多文档摘要框架，可以通过探索比句子更细粒度的句法单元（即名词 / 动词短语）来构建新的句子。与现有的基于抽象的方法不同，我们的方法首先构建了一个由输入文档中的短语表示的概念和事实池。然后通过选择和合并信息短语生成新的句子，以最大化短语的显著性并同时满足句子构造约束。我们采用整数线性优化来同时进行短语选择和合并，以实现摘要的全局最优解。在基准数据集 TAC 2011 上进行的实验结果表明，我们的框架在自动金字塔评估度量标准下优于最先进的模型，并在手动语言质量评估上取得了相当好的结果。

Jun, 2015

利用生成式语言模型进行神经机器翻译的数据增强

通过利用大规模语言模型如 ChatGPT，我们探索了基于提示的数据增强方法，用于产生合成的平行语料库，比较了三种不同提示的方法，并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本，与后向翻译等其他增强方法相比，提高了未增强基线的 0.68 BLEU 分数。

Jul, 2023

使用数据增强的多级联模型提升短文本复述检测

本研究提出了一种基于数据增强的多重级联模型，用于改进短文本的对应检测，并在三个基准数据集上进行了评估和表现验证。

Dec, 2019

基于词典的形态学感知数据增强技术用于机器翻译低资源语种

我们提出了一种依赖于词法 - 句法信息和双语词典以及少量种子并行数据来合成并行数据的策略，该方法在 14 种语言中（28 个英语 <->X 对）的实验中展示了性能的一致提升。

Feb, 2024

利用短语对注入和语料过滤改进机器翻译

本论文表明，短语注入和语料库过滤的组合提高了神经机器翻译 (NMT) 系统的性能。我们从伪平行语料库中提取并增广平行短语和句子，以此训练 NMT 模型。在 Hindi-Marathi、English-Marathi 和 English-Pashto 这 3 种低资源语言对和 6 种翻译方向上，我们观察到了 NMT 系统的改进，并在 FLORES 测试数据上提高了 2.7 BLEU 分，这些 BLEU 分数改进是基于使用整个伪平行语料库和平行语料库增广的模型。

Jan, 2023

利用释义生成快速启动对话系统

该研究提出了一种基于改写生成的方法，可以减少创建新对话代理所需要的时间和成本，同时提高其性能，使其能够实际与真实用户进行交互。实验证明该方法提高了意图分类模型的泛化能力，有助于在组织范围内规模化部署这项技术。

Apr, 2022