NAT: 受噪声影响的训练用于强健神经序列标记

ACLMay, 2020

NAT: 受噪声影响的训练用于强健神经序列标记

NAT: Noise-Aware Training for Robust Neural Sequence Labeling

Marcin Namysl, Sven Behnke, Joachim Köhler

TL;DR本文提出了两种噪声感知训练对象来提高对受干扰输入的序列标记的鲁棒性，一种是使用混合干净和嘈杂样本的数据增强方法来训练神经模型，另外一种是通过稳定性训练算法鼓励模型生成噪声不变的潜在表示，实验结果证实，这种方法能够提高流行的序列标记模型的鲁棒性，保持原始输入的准确性。

Abstract

sequence labeling systems should perform reliably not only under ideal conditions but also with corrupted inputs - as these systems often process user-generated text or follow an error-prone upstream component. To this end, we formulate the noisy →

sequence labeling noisy input data augmentation stability training robustness

发现论文，激发创造

噪音感知训练的布局感知语言模型

使用噪声感知训练 (NAT) 的多个最先进的提取模型来减少企业环境下自定义提取器所需的人工标注样本数量，提高性能，并降低人力成本。

Mar, 2024

基于实证误差建模的神经序列标注方法提升噪声下鲁棒性能

本文在处理嘈杂的文本数据或 OCR 输出时，提出了改进的噪声感知训练方法，并通过一种从无误文本翻译为有误文本的序列对序列模型，提出了实证误差生成方法。利用 OCR 引擎生成大型平行文本语料库进行训练，针对错误序列标注数据集提出了多种真实世界的噪声序列标注基准。通过学习基于噪声语言模型的嵌入，可以克服文本输入不完美时数据稀疏性问题。我们的方法在错误的序列标注数据集上优于基线噪声生成和错误修正技术，为未来的鲁棒性研究提供了帮助，我们作为开源项目提供了我们的代码、嵌入和数据转换脚本。

May, 2021

非自回归神经机器翻译的序列级训练

本文提出了一种使用序列级训练目标来训练非自回归神经机器翻译模型的方法，通过几种为非自回归定制的新型强化算法，基于 BLEU 等序列级评价指标优化 NAT 模型的训练；介绍了一种基于 Bag-of-Ngrams（BoN）差异的 NAT 模型的新型训练目标；并通过三阶段训练策略将这两种方法结合起来应用，验证了该方法在多项任务中的鲜明表现。

Jun, 2021

通过预测噪音实现无监督学习

本文介绍了一种通用的框架，用于在没有监督的情况下对深度网络进行端对端训练，通过固定一组目标表示并约束其深度特征对齐到这些表示来达到目的，同时采用了随机批量重新分配策略和可分离的平方损失函数来缓解标准无监督学习中的一些问题，并且在 ImageNet 和 Pascal VOC 上能够实现与最先进的无监督方法相媲美的表现。

Apr, 2017

多源噪声模拟与难例挖掘用于文本分类的鲁棒性学习

本研究提出了一种新的训练框架，通过直接模拟自然 OCR 噪声并从大量的模拟样本中迭代挖掘难样本来提高模型性能，实验表明该框架大大提高了预训练模型的鲁棒性，可以在实际场景下极大地促进 NLP 模型的应用。

Jul, 2021

低资源神经序列标注的不确定性自我训练

本文提出了 SeqUST，一种新颖的不确定性感知自我训练框架，以解决标记数据稀缺性问题并有效利用未标记数据来改善神经序列标注的性能，并在六个基准测试中展现出在低资源场景中超越强基线模型的能力。

Feb, 2023

通过噪声建模实现文本分类标签噪声的鲁棒性

该论文研究了 NLP 中文本分类的标签噪声问题，提出了一种基于 beta 混合模型的辅助噪声模型，通过此模型可以减轻标签噪声对分类器的影响，提高分类准确率并防止过度拟合。

Jan, 2021

通过数据增强提高神经机器翻译的鲁棒性：超越回译

本文探讨了神经机器翻译以及如何提高其对于噪声输入的鲁棒性，提出了新的数据扩充方法以及通过利用外部数据中的噪声来加强模型鲁棒性。

Oct, 2019

干净与嘈杂语音转录的强健神经机器翻译

本文研究如何使强 NMT 系统适应典型 ASR 错误，并提出适应策略以训练单一系统，能够在无监督输入类型的情况下翻译干净或嘈杂的输入。通过公共演讲翻译数据集的实验结果表明，对包括 ASR 转录本的大量并行数据进行调整对于相同类型的测试数据是有益的，但在翻译干净文本时会产生轻微恶化。在干净和嘈杂数据的同一数据上进行调整可以在两种输入类型上产生最佳结果。

Oct, 2019

合成和自然噪声都会破坏神经机器翻译

本文研究了基于字符的神经机器翻译模型，并发现它们能够解决词表外的问题、学习词形变化，但是在面对嘈杂的数据时容易出现错误。作者探究了两个方法来提高模型的鲁棒性：结构不变的词表示和在噪声数据上强化训练。作者发现一个基于字符卷积神经网络的模型能够同时学习多种噪声下的鲁棒表示。

Nov, 2017