重新思考文本数据增强的有效性:一个实证分析
本文提出了一种基于多任务学习的数据增强方法,通过将目标句子的顺序进行颠倒等操作,产生不流畅的目标句子,作为辅助任务使用以加强编码器和强制解码器更多地关注源表示。在六个低资源翻译任务上的实验证明,该方法相对于以扩展经验数据分布为目标的传统数据增强方法,可以在提高翻译质量的同时提高翻译系统的鲁棒性和抗干扰性。
Sep, 2021
在这篇论文中,我们挑战了传统数据增强方法的有效性,并表明经过更多时间的微调可以抵消数据增强的效果。我们还展示了零和少量数据生成方法通过对话代理(如 ChatGPT 或 LLama2)可以提高性能,从而总结出这种形式的数据增强仍然有效,即使传统方法不起作用。
Feb, 2024
机器学习中的数据增强技术通过多样化训练示例来提高模型性能,本文调查了大型语言模型在自然语言处理和其他领域中对数据增强的转变影响,探讨了利用大型语言模型进行数据增强的各种策略以及所面临的挑战。
Mar, 2024
在任务导向型对话系统中,通过数据增强方法在端到端设置下进行实证评估,证明了所有考虑的数据增强方法都是有益的,并提供了最佳方法和实践建议,同时引入了一个更具挑战性的少样本跨领域任务导向型对话系统的设置。
Jun, 2024
通过利用大规模语言模型如 ChatGPT,我们探索了基于提示的数据增强方法,用于产生合成的平行语料库,比较了三种不同提示的方法,并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本,与后向翻译等其他增强方法相比,提高了未增强基线的 0.68 BLEU 分数。
Jul, 2023
该论文提出了基于大型语言模型的数据增强方法(LLM-DA)以提升文本检索模型在人物图像检索中的性能。LLM-DA 使用大型语言模型重写当前的文本数据集,通过增加词汇和句子结构的多样性来扩展数据集,同时保持原始关键概念和语义信息。为了抑制大型语言模型的幻觉,LLM-DA 引入了文本忠实度过滤器(TFF)来筛除不忠实的重写文本。为了平衡原始文本和扩增文本的贡献,提出了一种平衡采样策略(BSS)。实验结果表明,LLM-DA 能够提升当前文本检索模型在人物图像检索任务上的性能。
May, 2024
本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练,该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。
Feb, 2023