噪音感知训练的布局感知语言模型

Mar, 2024

噪音感知训练的布局感知语言模型

Noise-Aware Training of Layout-Aware Language Models

Ritesh Sarkhel, Xiaoqi Ren, Lauro Beltrao Costa, Guolong Su, Vincent Perot...

TL;DR使用噪声感知训练 (NAT) 的多个最先进的提取模型来减少企业环境下自定义提取器所需的人工标注样本数量，提高性能，并降低人力成本。

Abstract

A visually rich document (VRD) utilizes visual features along with linguistic cues to disseminate information. Training a custom extractor that identifies →

visually rich document custom extractor named entities noise-aware training macro-f1 score

发现论文，激发创造

NAT: 受噪声影响的训练用于强健神经序列标记

本文提出了两种噪声感知训练对象来提高对受干扰输入的序列标记的鲁棒性，一种是使用混合干净和嘈杂样本的数据增强方法来训练神经模型，另外一种是通过稳定性训练算法鼓励模型生成噪声不变的潜在表示，实验结果证实，这种方法能够提高流行的序列标记模型的鲁棒性，保持原始输入的准确性。

May, 2020

基于自动噪声检测的实体链接远程学习

本文介绍了一种在没有标记数据的情况下，通过多实例学习和噪声检测的方法，学习从知识库中链接提及的实体，特别是对于科学领域等标记信息有限的领域。

May, 2019

具有噪声鲁棒性和语言模型增强的远程监督命名实体识别

本文研究如何通过使用自动化匹配原始文本中实体提及与知识库中实体类型来获得的远距离标注数据来训练命名实体识别（NER）模型，提出了一种噪声鲁棒的学习方案和自训练方法，通过预训练语言模型创建的上下文增量来改善 NER 模型的泛化能力，在三个基准数据集上，我们的方法均获得了优越的性能，显著优于现有的远程监督 NER 模型。

Sep, 2021

具有布局感知能力的基于预训练语言模型的视觉丰富文档信息抽取方法

本文研究信息提取的问题，使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息，并引入新的微调目标，通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验，并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3％，在简历中 F1 绝对值增加了 4.7％。在少数样本情况下，我们的方法需要比基线少 30 倍的批注数据才能在约 90％的 F1 达到相同的性能水平。

May, 2020

在低资源环境下训练神经网络自动注释的嘈杂数据

通过添加噪声层到神经网络结构中，我们可以处理噪声并联合清洁和嘈杂数据进行训练，从而提高低资源 NER 任务的性能，最多可提高 35%。

Jul, 2018

用少量干净实例改进在嘈杂数据上训练的命名实体识别器

为了实现最先进的性能，我们提出了使用少量干净实例的指导来去噪 NER 数据的方法，通过训练鉴别模型并使用其输出来重新校准样本权重，能够改善性能并在众包和远程监督数据集上保持一致的结果。

Oct, 2023

使用部分标注的训练数据进行命名实体识别

研究了使用部分标记数据进行命名实体识别的问题，用迭代算法通过识别假负标签减小其权值，训练带有偏重的 NER 模型，取得 8 种语言的实验结果，并在孟加拉语 NER 语料库中比现有最优算法提高 5 个百分点的 F1 分数。

Sep, 2019

嘈杂文本的命名实体消歧

本文主要介绍了一种基于神经模型和样本采集技术的 Named Entity Disambiguation 方法，使用 WikilinksNED 数据集进行训练与测试，并且在 embedding 初始化方面做了一些优化，取得显著的性能提升。

Jun, 2017

通过预测噪音实现无监督学习

本文介绍了一种通用的框架，用于在没有监督的情况下对深度网络进行端对端训练，通过固定一组目标表示并约束其深度特征对齐到这些表示来达到目的，同时采用了随机批量重新分配策略和可分离的平方损失函数来缓解标准无监督学习中的一些问题，并且在 ImageNet 和 Pascal VOC 上能够实现与最先进的无监督方法相媲美的表现。

Apr, 2017

使用领域专用字典学习命名实体标注器

本文研究使用深度神经模型实现对命名实体的识别，提出了两种神经模型，分别是模糊 CRF 层和 AutoNER 模型，并探讨了如何优化糟糕的监督数据来源以提高 NER 的准确率。实验结果表明，仅使用词典而无需人工操作的 AutoNER 表现最佳，并与最先进的监督基准具有竞争力。

Sep, 2018