利用数据增强技术进行过程信息提取
我们提出了一种数据增强技术,用于科学出版物中的过程提取任务。我们将过程提取任务视为序列标注任务,通过识别句子中的所有实体并根据其特定于过程的角色标记它们来完成任务。所提出的方法通过利用(1)原始句子中的特定于过程的信息,(2)角色标签相似度和(3)句子相似度来创建有意义的增强句子。我们证明了所提出的方法在化学领域数据集上训练的过程提取模型的性能显著提高,性能准确度提高了 12.3 个百分点(F 分数)。这些方法还可以在训练小数据集或在化学和其他科学领域等低资源环境中减少过拟合的可能性。
May, 2024
大型模型驱动的数据增强方法的综述,包括图像增强、文本增强和配对数据增强三个主要类别以及相关的数据后处理技术和应用领域,评估了大型模型驱动的数据增强在不同场景下的成功和限制,并提出了未来研究的挑战和方向。
Jan, 2024
本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展,着重介绍了基于神经网络和变换器的方法,讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。
Feb, 2023
本文旨在提高机器学习分类系统的泛化能力,通过对数据进行转换的方式来人工创建训练数据,从而增强数据的多样性,该文章就在「文本分类」中,对数据增强方法及其应用目标做了详细概述与分类,最终针对相关领域,提出建设性思路方向。
Jul, 2021
本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练,该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。
Feb, 2023
通过利用大规模语言模型如 ChatGPT,我们探索了基于提示的数据增强方法,用于产生合成的平行语料库,比较了三种不同提示的方法,并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本,与后向翻译等其他增强方法相比,提高了未增强基线的 0.68 BLEU 分数。
Jul, 2023
本工程研究了文本数据增强预处理技术,使用了常见的技术,如噪声注入,词法替换和生成的近义词,如后向转换或通过句法树的转换。使用这些技术,通过增加只有五个数据放大因子,已经使得在文本极性预测标准化任务上神经网络的准确度在 4.3% 到 21.6%的范围内获得了不错的提升,而且部分标准深度神经网络架构也都进行了测试。
Dec, 2018
本研究提出了一种新颖的语料库和方法,用于从 Behance 平台上流播放的视频的转录中提取关键词短语,文章提出了一种用于从其他领域获得关键词提取任务的背景知识的新型数据增强方法,并在所提出的数据集上展开了广泛的实验。
Sep, 2022
本研究针对基于标记序列的命名实体识别任务,设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集(i2b2-2010 和 MaSciP)上进行实验,我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能,尤其是对于小训练集的情况。
Oct, 2020