神经网络在线聊天响应选择的数据增强

EMNLPSep, 2018

神经网络在线聊天响应选择的数据增强

Data Augmentation for Neural Online Chat Response Selection

Wenchao Du, Alan W Black

TL;DR探讨在神经对话响应选择任务中使用排列和翻转两种数据增强代理，对多个数据集（包括中英文）的不同模型进行训练以提高泛化能力，并通过将原始和合成的数据进行组合来进行预测，实证结果表明，在全尺度和小尺度设置下，我们的方法可以在基准模型上获得 1 至 3 个 recall-at-1 点。

Abstract

data augmentation seeks to manipulate the available data for training to improve the generalization ability of models. We investigate two data augmentation proxies, →

data augmentation neural dialog response selection permutation flipping generalization ability

发现论文，激发创造

探索社交媒体语料库上的数据增强方法

本研究探索了数据增强技术对文字分类的影响，使用多种数据增强技术，包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明，数据增强技术对模型性能只有轻微且不一致的改进，少数同义词替换可以提高模型性能，灰度缩放需要进一步研究，PTE 的表现优于监督学习，尤其是在类别容易分离的情况下。

Mar, 2023

面向对话生成的选择性数据增强学习

介绍一种选择性数据增强框架（SDA），它利用对抗网络选择哪些数据点适合用于增强神经对话模型的性能，从而改善响应生成性能。

Mar, 2023

利用生成式语言模型进行神经机器翻译的数据增强

通过利用大规模语言模型如 ChatGPT，我们探索了基于提示的数据增强方法，用于产生合成的平行语料库，比较了三种不同提示的方法，并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本，与后向翻译等其他增强方法相比，提高了未增强基线的 0.68 BLEU 分数。

Jul, 2023

探索代码生成任务的数据增强技术

本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练，该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。

Feb, 2023

面向任务导向对话系统的语境数据增强

我们开发了一种新型的对话扩充模型，通过完整的对话上下文生成用户的回合，并通过语言模型的新提示设计和输出重新排序，所生成对话可直接用于训练下游对话系统，在常见的基准数据集 MultiWoZ 和 SGD 上，展示了我们的对话扩充模型生成高质量对话并使对话成功率较基准线提高多达 8%。

Oct, 2023

对话人工智能的数据增强

对话系统中的数据扩充方法提供了关键的方法来解决数据稀缺问题，并探讨了对话系统中的生成、评估等任务中的挑战与未来方向。

Sep, 2023

神经 NLP 数据增强

本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展，着重介绍了基于神经网络和变换器的方法，讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。

Feb, 2023

数据操作：通过学习增强和重新加权实现神经对话生成的有效实例学习

本文提出了一种数据操纵框架来通过增强和突显有效的学习样本以及同时减少无效样本的影响来主动重塑数据分布，以优化对话生成模型的训练样本。通过选择性地增加训练样本并为每个实例分配重要性权重来转换训练数据。结果表明，该框架能够改善对话生成性能，符合各种自动评估指标和人类判断。

Apr, 2020

低资源神经机器翻译中数据增强的再思考：多任务学习方法

本文提出了一种基于多任务学习的数据增强方法，通过将目标句子的顺序进行颠倒等操作，产生不流畅的目标句子，作为辅助任务使用以加强编码器和强制解码器更多地关注源表示。在六个低资源翻译任务上的实验证明，该方法相对于以扩展经验数据分布为目标的传统数据增强方法，可以在提高翻译质量的同时提高翻译系统的鲁棒性和抗干扰性。

Sep, 2021

使用 ChatGPT 生成和增强训练数据的 ZeroShotDataAug

利用生成式语言模型 ChatGPT 生成合成训练数据，以增强低资源场景下的数据，我们使用特定任务的 ChatGPT 提示，表现优于现有方法，并研究了评估合成数据相似性的方法，以验证和评估所生成数据的质量。

Apr, 2023