对话人工智能的数据增强
在任务导向型对话系统中,通过数据增强方法在端到端设置下进行实证评估,证明了所有考虑的数据增强方法都是有益的,并提供了最佳方法和实践建议,同时引入了一个更具挑战性的少样本跨领域任务导向型对话系统的设置。
Jun, 2024
在这篇论文中,我们挑战了传统数据增强方法的有效性,并表明经过更多时间的微调可以抵消数据增强的效果。我们还展示了零和少量数据生成方法通过对话代理(如 ChatGPT 或 LLama2)可以提高性能,从而总结出这种形式的数据增强仍然有效,即使传统方法不起作用。
Feb, 2024
本文提出了一种基于多任务学习的数据增强方法,通过将目标句子的顺序进行颠倒等操作,产生不流畅的目标句子,作为辅助任务使用以加强编码器和强制解码器更多地关注源表示。在六个低资源翻译任务上的实验证明,该方法相对于以扩展经验数据分布为目标的传统数据增强方法,可以在提高翻译质量的同时提高翻译系统的鲁棒性和抗干扰性。
Sep, 2021
该研究通过四种自动方法在单词和句子级别上增强数据,提高目标导向对话模型的数据效果,并在两个数据集上进行实验,结果表明四种数据扩充方法在 Success F1 score 方面均能显著提高。进一步分析确认,增加用户话语的多样性可以使端到端模型学习特征更为稳健。
Dec, 2019
本文研究七种数据扩增方法在事实型问题回答中的作用,着重于生物医学领域以及数据难以获得的情况。作者从 BioASQ 挑战赛中获取数据,然后通过人工智能技术和其他方法进行扩增。实验证明,即使在使用大型预训练模型时,数据扩增也会带来非常显著的性能提升,其中以基于 word2vec 的词汇替换为最佳方法。作者最终公开了其代码和人工训练数据集。
Apr, 2022
本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展,着重介绍了基于神经网络和变换器的方法,讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。
Feb, 2023
本文提出了一种名为对抗数据增强(A-DA)的新方法,将数据增强与对抗学习相结合,通过额外的分类器对不同类型的增强进行分类,使得网络能够生成能够欺骗分类器的说话者嵌入,从而提升模型对于增强变化的鲁棒性和泛化能力。在 VoxCeleb 和 CN-Celeb 数据集上的实验证明了我们提出的 A-DA 方法在匹配和不匹配的测试条件下均优于标准数据增强方法,展示了其对于声学变化的卓越鲁棒性和泛化能力。
Feb, 2024
利用大规模语言模型 (LLM) 进行以摘要为基础的对话增强 (SDA) 以提高语义多样性和控制能力,通过生成高质量和多样化的对话数据来增强开放领域对话模型的性能。
Mar, 2024