基于语法的命名实体识别数据增强
本研究针对基于标记序列的命名实体识别任务,设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集(i2b2-2010 和 MaSciP)上进行实验,我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能,尤其是对于小训练集的情况。
Oct, 2020
本研究提出了一种基于语言模型的数据增强方法,可以生成高质量的合成数据以提高机器学习性能,在监督和半监督学习环境下,实验结果表明,在给定较少的训练数据的情况下,该方法可以始终优于基准方法。
Nov, 2020
使用 MELM 作为一种新的数据增强框架,通过显式条件化于标签来预测掩码实体标记,从而为低资源 NER 生成高质量的增强数据,并通过与混合代码结合进一步提高了 MELM 的有效性,在单语,跨语言和多语言 NER 方面均取得了实验结果的显著改进。
Aug, 2021
本文提出了一种新的句法感知数据增强策略,使用输入句子的依存句法树来确定每个句子中单词的选择概率,以有效增强神经机器翻译的翻译性能。实验表明,所提出的数据增强方法可显著提高基于句子独立的方法的翻译性能。
Apr, 2020
提出了 $LLM-DA$,这是基于大型语言模型的一种新的数据增强技术,适用于少样本的命名实体识别任务,并实验证明该方法在有限数据情况下能有效提升模型性能。
Feb, 2024
本文提出了基于回译技术的数据增强策略,用于命名实体识别任务的低资源域,实验结果表明该方法在材料科学和生物医学领域中均表现出了高效的性能。
Aug, 2021
本文研究了基于标记级别的文本增强及概率语言知识在基于语言学评估的情境下的作用。在中英文的问题匹配分类任务中,对五种标记级别的文本增强技术进行了全面细致的实验,发现它们的效果普遍较差且概率语言知识的作用极小。
Jun, 2023
本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展,着重介绍了基于神经网络和变换器的方法,讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。
Feb, 2023