在低资源环境下训练神经网络自动注释的嘈杂数据

Jul, 2018

在低资源环境下训练神经网络自动注释的嘈杂数据

Training a Neural Network in a Low-Resource Setting on Automatically Annotated Noisy Data

Michael A. Hedderich, Dietrich Klakow

TL;DR通过添加噪声层到神经网络结构中，我们可以处理噪声并联合清洁和嘈杂数据进行训练，从而提高低资源 NER 任务的性能，最多可提高 35%。

Abstract

Manually labeled corpora are expensive to create and often not available for low-resource languages or domains. automatic labeling approaches are an alternative way to obtain labeled data in a quicker and cheaper way. However, these labels often contain more errors which can deteriorat

automatic labeling neural network architecture low-resource ner noisy data classifier performance

发现论文，激发创造

从含有噪声标签的数据中学习如何学习

本文提出一种噪声容忍的训练算法，其中在传统梯度更新之前进行元学习更新来模拟实际训练。通过生成合成噪声标签进行训练，该元学习方法训练模型，以便在使用每个设置的合成噪声标签进行一次梯度更新后，模型不会过度拟合特定的噪声，从而提高深度神经网络的性能。

Dec, 2018

用少量干净实例改进在嘈杂数据上训练的命名实体识别器

为了实现最先进的性能，我们提出了使用少量干净实例的指导来去噪 NER 数据的方法，通过训练鉴别模型并使用其输出来重新校准样本权重，能够改善性能并在众包和远程监督数据集上保持一致的结果。

Oct, 2023

面向任务的预训练，提升对含噪标签的学习：非洲语言文本分类探究

本文主要研究了如何应对在低资源语言中的文本分类中存在的标注噪声问题，并提出了一些噪声处理技术和使用任务自适应的预训练技术来解决这个问题。

Jun, 2022

用弱标注数据学习的低资源命名标记

该研究提出了一种基于弱标注数据的名字标注神经模型，通过使用 Partial-CRFs 等技术，有效地解决了低资源语言或领域中不足的培训数据问题，并在五种低资源语言和细粒度的食品领域上表现出显著的性能和效率改善。

Aug, 2019

基于自动噪声检测的实体链接远程学习

本文介绍了一种在没有标记数据的情况下，通过多实例学习和噪声检测的方法，学习从知识库中链接提及的实体，特别是对于科学领域等标记信息有限的领域。

May, 2019

具有噪声鲁棒性和语言模型增强的远程监督命名实体识别

本文研究如何通过使用自动化匹配原始文本中实体提及与知识库中实体类型来获得的远距离标注数据来训练命名实体识别（NER）模型，提出了一种噪声鲁棒的学习方案和自训练方法，通过预训练语言模型创建的上下文增量来改善 NER 模型的泛化能力，在三个基准数据集上，我们的方法均获得了优越的性能，显著优于现有的远程监督 NER 模型。

Sep, 2021

提高噪声学生训练用于自动语音识别

本文研究了在自动语音识别中使用自适应 SpecAugment 的噪声自适应训练方法，通过过滤、平衡和增强数据集，成功地提高了网络性能，使 WER 在 LibriSpeech 测试集上分别为 4.2％/8.6％（无噪声 / 有噪声），并在 LibriLight 上达到了 1.7％/3.4％（无噪声 / 有噪声）

May, 2020

基于特征的混淆矩阵用于低资源 NER 标记和噪声标记

在资源匮乏的情况下，使用自动注释或远程监督数据可以改善监督标注模型的性能，但这些数据往往信息有噪声，并且噪声估计需要考虑输入特征和预初始化的混淆矩阵。我们提出将训练数据使用输入特征进行聚类，为每个簇计算不同的混淆矩阵，并在多种语言的命名实体识别场景中进行评估，显示我们的方法比其他混淆矩阵方法提高了高达 9% 的性能。

Oct, 2019

基于半监督两阶段方法的噪声标签学习

本研究提出了一种应对嘈杂标签的无监督半监督深度神经网络学习框架，通过在噪声图像标注中识别出标签准确度较高的部分数据，并利用半监督学习方式训练深度神经网络以更好地利用整个数据集。

Feb, 2018

带有置信度估计的有噪标注命名实体识别

该研究采用校准置信度估计的方式来研究深度学习在实际场景下的命名实体识别问题，提出了一种基于本地和全局独立性假设的置信得分估计策略，并结合 CRF 模型来隔离低置信度标签，同时提出了一种基于实体标签结构的置信度校准方法，最后将其集成到自我训练框架中进行性能提升，在四种语言和遥远标注场景下的实验证明了该方法的有效性。

Apr, 2021