软件电子设计自动化:以软标签重构基于规则的数据增强
本文提出了一种基于 AutoAugment 的方法来解决文本数据增强中的语义损害问题,并实验证明该方法可以改善现有的增强方法,并增强先进的预训练语言模型。
Feb, 2024
本研究提出了一种基于语言模型的数据增强方法,可以生成高质量的合成数据以提高机器学习性能,在监督和半监督学习环境下,实验结果表明,在给定较少的训练数据的情况下,该方法可以始终优于基准方法。
Nov, 2020
本研究针对基于标记序列的命名实体识别任务,设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集(i2b2-2010 和 MaSciP)上进行实验,我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能,尤其是对于小训练集的情况。
Oct, 2020
本文提出了一种在社交媒体帖子中检测和分类在线性别歧视的方法,使用了 BERTweet、RoBERTa 和 DeBERTa 等 fine-tuned transformer-based 模型,并采用数据增强和半监督学习来改善模型的泛化能力和应对类别不平衡问题,在 SubtaskA 获得了 0.8613 的 F1 得分,排名第十。
Apr, 2023
本文提出了一种新颖的神经机器翻译数据增强方法,即通过语言模型提供的词汇分布来增强句子中的特定单词,从而比之前的增强方法更好地捕捉上下文语义信息。实验结果表明该方法在小规模和大规模机器翻译数据集上都优于强基线。
May, 2019
通过现有的自然语言处理技术和文本生成能力,我们提出了一种新的数据增强方法,即基于语言模型的数据增强 (LAMBADA),它可以在有限标注数据的情况下用强大的预训练神经网络模型合成新的有标注数据,进而提高文本分类任务性能。
Nov, 2019
本研究探讨了在低资源条件下如何使用数据增强技术来提高命名实体识别任务的性能,并比较了简单的掩码语言模型替换和基于句法树变异的数据增强方法,以保持增强后句子的语言连贯性。
Aug, 2022
该研究提出了一种基于决策边界的数据增强策略,利用预训练语言模型来提高鲁棒性;该技术首先将潜在特征接近决策边界,然后通过重构生成一个带有软标签的模糊版本,并建议使用中点 K 采样来增强生成句子的多样性。通过大量实验证明了该增强策略与其他方法相比的性能,同时深入研究了软标签和中点 K 采样的效果以及该方法在课程数据增强中的可扩展性。
Mar, 2024
本文旨在系统评估了在有限标注数据情境下的 Natural Language Processing(NLP)中数据增强方法的进展和方法景观,总结了包括标记级别增强、句子级别增强、对抗性增强和隐藏空间增强等多种方法并在 11 个数据集上实验,分析了各种方法的适用情境,对 NLP 有限数据学习的挑战和未来方向进行了讨论。
Jun, 2021
本研究探索了数据增强技术对文字分类的影响,使用多种数据增强技术,包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明,数据增强技术对模型性能只有轻微且不一致的改进,少数同义词替换可以提高模型性能,灰度缩放需要进一步研究,PTE 的表现优于监督学习,尤其是在类别容易分离的情况下。
Mar, 2023