概率语言知识与单词级别文本增强
本研究探讨了在低资源条件下如何使用数据增强技术来提高命名实体识别任务的性能,并比较了简单的掩码语言模型替换和基于句法树变异的数据增强方法,以保持增强后句子的语言连贯性。
Aug, 2022
通过提出易分布数据增强(EDDA)和类型特定的相似词替换(TSSR)两种扩展方法,利用语义词上下文信息和词性标签进行词替换和增强,我们展示了这些方法在低资源语言的两个代表数据集上通过 F1 分数度量的实用性,证明了增强数据可以在低资源环境中提高分类性能。
Sep, 2023
探究数据增广方法在 NLP 中的效果和可泛化性,通过三个二进制文本匹配分类任务的大规模实验发现,随机文本扰动作为数据增广能给神经分类模型的测试集性能带来正面和负面的影响,具体取决于模型是否足够训练原始训练例子,但这与是否同时或分别应用五个随机文本编辑操作无关,研究强烈暗示随机文本扰动的效果任务特定,而不是普遍积极的。
Sep, 2022
本研究提出了一种基于语言模型的数据增强方法,可以生成高质量的合成数据以提高机器学习性能,在监督和半监督学习环境下,实验结果表明,在给定较少的训练数据的情况下,该方法可以始终优于基准方法。
Nov, 2020
本研究针对基于标记序列的命名实体识别任务,设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集(i2b2-2010 和 MaSciP)上进行实验,我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能,尤其是对于小训练集的情况。
Oct, 2020
本文研究评估了三种不同的微调方法在七种不同的自然语言处理任务中的效果,结果表明数据增强可以有效提高微调后的模型性能,特别是在少样本学习任务中,持续的预训练可以将性能提高 10% 以上。
Jun, 2023
本工程研究了文本数据增强预处理技术,使用了常见的技术,如噪声注入,词法替换和生成的近义词,如后向转换或通过句法树的转换。使用这些技术,通过增加只有五个数据放大因子,已经使得在文本极性预测标准化任务上神经网络的准确度在 4.3% 到 21.6%的范围内获得了不错的提升,而且部分标准深度神经网络架构也都进行了测试。
Dec, 2018
提出了 $LLM-DA$,这是基于大型语言模型的一种新的数据增强技术,适用于少样本的命名实体识别任务,并实验证明该方法在有限数据情况下能有效提升模型性能。
Feb, 2024
本文提出了一种新的句法感知数据增强策略,使用输入句子的依存句法树来确定每个句子中单词的选择概率,以有效增强神经机器翻译的翻译性能。实验表明,所提出的数据增强方法可显著提高基于句子独立的方法的翻译性能。
Apr, 2020
本文提出了一种基于多任务学习的数据增强方法,通过将目标句子的顺序进行颠倒等操作,产生不流畅的目标句子,作为辅助任务使用以加强编码器和强制解码器更多地关注源表示。在六个低资源翻译任务上的实验证明,该方法相对于以扩展经验数据分布为目标的传统数据增强方法,可以在提高翻译质量的同时提高翻译系统的鲁棒性和抗干扰性。
Sep, 2021