视觉丰富文档的增强策略

Dec, 2022

An Augmentation Strategy for Visually Rich Documents

Jing Xie, James B. Wendt, Yichao Zhou, Seth Ebner, Sandeep Tata

TL;DR本论文提出了一种名为 FieldSwap 的数据增强技术，通过交换源领域的关键短语和目标领域的关键短语来生成新的合成例子，以提高培训中目标领域数据稀缺时的性能，例如文本处理和字段提取。实验证明，该方法可以提高 1-7 个 F1 点的提取性能。

Abstract

Many business workflows require extracting important fields from form-like documents (e.g. bank statements, bills of lading, purchase orders, etc.). Recent techniques for automating this task work well only when trained with large datasets. In this work we propose a novel data augmentation

data augmentation field extraction document processing key phrases synthetic examples

发现论文，激发创造

利用数据增强和信息过滤改进关键词提取

本研究提出了一种新颖的语料库和方法，用于从 Behance 平台上流播放的视频的转录中提取关键词短语，文章提出了一种用于从其他领域获得关键词提取任务的背景知识的新型数据增强方法，并在所提出的数据集上展开了广泛的实验。

Sep, 2022

利用数据增强技术进行过程信息提取

研究了数据增强在自然语言文本中的应用，发现它对于从自然语言文本中生成业务流程模型的机器学习方法至关重要，并且可以提高提取准确性。

Apr, 2024

科学出版物中的流程提取的数据增强技术

我们提出了一种数据增强技术，用于科学出版物中的过程提取任务。我们将过程提取任务视为序列标注任务，通过识别句子中的所有实体并根据其特定于过程的角色标记它们来完成任务。所提出的方法通过利用（1）原始句子中的特定于过程的信息，（2）角色标签相似度和（3）句子相似度来创建有意义的增强句子。我们证明了所提出的方法在化学领域数据集上训练的过程提取模型的性能显著提高，性能准确度提高了 12.3 个百分点（F 分数）。这些方法还可以在训练小数据集或在化学和其他科学领域等低资源环境中减少过拟合的可能性。

May, 2024

基于摘要生成的数据增强方法用于文档分类

通过使用 SUMMaug，一种简单但有效的基于摘要的数据增强方法，我们能够解决预训练语言模型在理解长文本（如文档）时遇到的数据稀疏问题，并在文档分类任务中取得了稳健性和准确性上的优势。

Dec, 2023

低资源关键词生成的数据增强

本文提出了针对资源受限领域关键短语生成的数据增强策略，并设计了使用文章全文来改进关键短语生成技术的方法，在三个数据集上得到了显著的性能提升。

May, 2023

基于数据效率的形式文档信息提取

本文介绍了如何使用少量标记数据和被标记语料库进行转移学习，以实现在规模上自动从表单状文件提取信息。

Jan, 2022

通过全局增强方法提高短文本分类效果

本文研究了不同的文本扩充方法在分类应用中的影响，通过使用包括社交媒体和新闻文章在内的三个数据集，我们发现基于 Word2vec 的文本扩充是一种可行的选择，并且使用 mixup 可以进一步提高性能，并降低过拟合的影响。同时，通过翻译服务进行往返翻译的效果不如其他方法好，并且成本较高，适用性较差。

Jul, 2019

利用 NLP 云 API 简化文本数据增强

本工程研究了文本数据增强预处理技术，使用了常见的技术，如噪声注入，词法替换和生成的近义词，如后向转换或通过句法树的转换。使用这些技术，通过增加只有五个数据放大因子，已经使得在文本极性预测标准化任务上神经网络的准确度在 4.3% 到 21.6％的范围内获得了不错的提升，而且部分标准深度神经网络架构也都进行了测试。

Dec, 2018

基于语法的命名实体识别数据增强

本研究探讨了在低资源条件下如何使用数据增强技术来提高命名实体识别任务的性能，并比较了简单的掩码语言模型替换和基于句法树变异的数据增强方法，以保持增强后句子的语言连贯性。

Aug, 2022

针对低资源事件抽取的目标增强

应对低资源信息提取的挑战仍然是一个持续存在的问题，由于有限训练示例中固有的信息稀缺性。现有的数据增强方法被认为是潜在的解决方案，但在弱增强（例如同义词增强）和剧烈增强（例如缺乏适当指导的条件生成）之间很难达到平衡。本文提出了一种新的范式，采用目标增强和反向验证，以生成增强的示例，增强了多样性、极性、准确性和连贯性。广泛的实验结果证明了所提范式的有效性。此外，还讨论了已确定的局限性，为未来改进提供了启示。

May, 2024