面向对话生成的选择性数据增强学习
利用大规模语言模型 (LLM) 进行以摘要为基础的对话增强 (SDA) 以提高语义多样性和控制能力,通过生成高质量和多样化的对话数据来增强开放领域对话模型的性能。
Mar, 2024
我们开发了一种新型的对话扩充模型,通过完整的对话上下文生成用户的回合,并通过语言模型的新提示设计和输出重新排序,所生成对话可直接用于训练下游对话系统,在常见的基准数据集 MultiWoZ 和 SGD 上,展示了我们的对话扩充模型生成高质量对话并使对话成功率较基准线提高多达 8%。
Oct, 2023
探讨在神经对话响应选择任务中使用排列和翻转两种数据增强代理,对多个数据集(包括中英文)的不同模型进行训练以提高泛化能力,并通过将原始和合成的数据进行组合来进行预测,实证结果表明,在全尺度和小尺度设置下,我们的方法可以在基准模型上获得 1 至 3 个 recall-at-1 点。
Sep, 2018
本文提出了一种数据操纵框架来通过增强和突显有效的学习样本以及同时减少无效样本的影响来主动重塑数据分布,以优化对话生成模型的训练样本。通过选择性地增加训练样本并为每个实例分配重要性权重来转换训练数据。结果表明,该框架能够改善对话生成性能,符合各种自动评估指标和人类判断。
Apr, 2020
在任务导向型对话系统中,通过数据增强方法在端到端设置下进行实证评估,证明了所有考虑的数据增强方法都是有益的,并提供了最佳方法和实践建议,同时引入了一个更具挑战性的少样本跨领域任务导向型对话系统的设置。
Jun, 2024
该研究通过四种自动方法在单词和句子级别上增强数据,提高目标导向对话模型的数据效果,并在两个数据集上进行实验,结果表明四种数据扩充方法在 Success F1 score 方面均能显著提高。进一步分析确认,增加用户话语的多样性可以使端到端模型学习特征更为稳健。
Dec, 2019
本文提出了一种名为对抗数据增强(A-DA)的新方法,将数据增强与对抗学习相结合,通过额外的分类器对不同类型的增强进行分类,使得网络能够生成能够欺骗分类器的说话者嵌入,从而提升模型对于增强变化的鲁棒性和泛化能力。在 VoxCeleb 和 CN-Celeb 数据集上的实验证明了我们提出的 A-DA 方法在匹配和不匹配的测试条件下均优于标准数据增强方法,展示了其对于声学变化的卓越鲁棒性和泛化能力。
Feb, 2024
本研究针对面向任务对话系统中语言理解的数据增强问题,提出了基于序列到序列生成的数据增强框架来提高模型的性能,该框架利用训练数据中某个话语的同义替代品来增强数据,将多样性排名纳入话语表示中,生成多样性增加的话语,实验证明在仅有数百个话语的情况下,在 Airline Travel Information System 数据集和 Stanford Multi-turn,Multidomain Dialogue 数据集上都取得了显著的 6.38 和 10.04 分数提高。
Jul, 2018
本文提出了一种基于多任务学习的数据增强方法,通过将目标句子的顺序进行颠倒等操作,产生不流畅的目标句子,作为辅助任务使用以加强编码器和强制解码器更多地关注源表示。在六个低资源翻译任务上的实验证明,该方法相对于以扩展经验数据分布为目标的传统数据增强方法,可以在提高翻译质量的同时提高翻译系统的鲁棒性和抗干扰性。
Sep, 2021