视觉丰富文档的增强策略
本研究提出了一种新颖的语料库和方法,用于从 Behance 平台上流播放的视频的转录中提取关键词短语,文章提出了一种用于从其他领域获得关键词提取任务的背景知识的新型数据增强方法,并在所提出的数据集上展开了广泛的实验。
Sep, 2022
我们提出了一种数据增强技术,用于科学出版物中的过程提取任务。我们将过程提取任务视为序列标注任务,通过识别句子中的所有实体并根据其特定于过程的角色标记它们来完成任务。所提出的方法通过利用(1)原始句子中的特定于过程的信息,(2)角色标签相似度和(3)句子相似度来创建有意义的增强句子。我们证明了所提出的方法在化学领域数据集上训练的过程提取模型的性能显著提高,性能准确度提高了 12.3 个百分点(F 分数)。这些方法还可以在训练小数据集或在化学和其他科学领域等低资源环境中减少过拟合的可能性。
May, 2024
通过使用 SUMMaug,一种简单但有效的基于摘要的数据增强方法,我们能够解决预训练语言模型在理解长文本(如文档)时遇到的数据稀疏问题,并在文档分类任务中取得了稳健性和准确性上的优势。
Dec, 2023
本文研究了不同的文本扩充方法在分类应用中的影响,通过使用包括社交媒体和新闻文章在内的三个数据集,我们发现基于 Word2vec 的文本扩充是一种可行的选择,并且使用 mixup 可以进一步提高性能,并降低过拟合的影响。同时,通过翻译服务进行往返翻译的效果不如其他方法好,并且成本较高,适用性较差。
Jul, 2019
本工程研究了文本数据增强预处理技术,使用了常见的技术,如噪声注入,词法替换和生成的近义词,如后向转换或通过句法树的转换。使用这些技术,通过增加只有五个数据放大因子,已经使得在文本极性预测标准化任务上神经网络的准确度在 4.3% 到 21.6%的范围内获得了不错的提升,而且部分标准深度神经网络架构也都进行了测试。
Dec, 2018
本研究探讨了在低资源条件下如何使用数据增强技术来提高命名实体识别任务的性能,并比较了简单的掩码语言模型替换和基于句法树变异的数据增强方法,以保持增强后句子的语言连贯性。
Aug, 2022
应对低资源信息提取的挑战仍然是一个持续存在的问题,由于有限训练示例中固有的信息稀缺性。现有的数据增强方法被认为是潜在的解决方案,但在弱增强(例如同义词增强)和剧烈增强(例如缺乏适当指导的条件生成)之间很难达到平衡。本文提出了一种新的范式,采用目标增强和反向验证,以生成增强的示例,增强了多样性、极性、准确性和连贯性。广泛的实验结果证明了所提范式的有效性。此外,还讨论了已确定的局限性,为未来改进提供了启示。
May, 2024