NAT: 受噪声影响的训练用于强健神经序列标记
本文在处理嘈杂的文本数据或 OCR 输出时,提出了改进的噪声感知训练方法,并通过一种从无误文本翻译为有误文本的序列对序列模型,提出了实证误差生成方法。利用 OCR 引擎生成大型平行文本语料库进行训练,针对错误序列标注数据集提出了多种真实世界的噪声序列标注基准。通过学习基于噪声语言模型的嵌入,可以克服文本输入不完美时数据稀疏性问题。我们的方法在错误的序列标注数据集上优于基线噪声生成和错误修正技术,为未来的鲁棒性研究提供了帮助,我们作为开源项目提供了我们的代码、嵌入和数据转换脚本。
May, 2021
本文提出了一种使用序列级训练目标来训练非自回归神经机器翻译模型的方法,通过几种为非自回归定制的新型强化算法,基于 BLEU 等序列级评价指标优化 NAT 模型的训练;介绍了一种基于 Bag-of-Ngrams(BoN)差异的 NAT 模型的新型训练目标;并通过三阶段训练策略将这两种方法结合起来应用,验证了该方法在多项任务中的鲜明表现。
Jun, 2021
本文介绍了一种通用的框架,用于在没有监督的情况下对深度网络进行端对端训练,通过固定一组目标表示并约束其深度特征对齐到这些表示来达到目的,同时采用了随机批量重新分配策略和可分离的平方损失函数来缓解标准无监督学习中的一些问题,并且在 ImageNet 和 Pascal VOC 上能够实现与最先进的无监督方法相媲美的表现。
Apr, 2017
本研究提出了一种新的训练框架,通过直接模拟自然 OCR 噪声并从大量的模拟样本中迭代挖掘难样本来提高模型性能,实验表明该框架大大提高了预训练模型的鲁棒性,可以在实际场景下极大地促进 NLP 模型的应用。
Jul, 2021
本文提出了 SeqUST, 一种新颖的不确定性感知自我训练框架,以解决标记数据稀缺性问题并有效利用未标记数据来改善神经序列标注的性能,并在六个基准测试中展现出在低资源场景中超越强基线模型的能力。
Feb, 2023
该论文研究了 NLP 中文本分类的标签噪声问题,提出了一种基于 beta 混合模型的辅助噪声模型,通过此模型可以减轻标签噪声对分类器的影响,提高分类准确率并防止过度拟合。
Jan, 2021
本文研究如何使强 NMT 系统适应典型 ASR 错误,并提出适应策略以训练单一系统,能够在无监督输入类型的情况下翻译干净或嘈杂的输入。通过公共演讲翻译数据集的实验结果表明,对包括 ASR 转录本的大量并行数据进行调整对于相同类型的测试数据是有益的,但在翻译干净文本时会产生轻微恶化。 在干净和嘈杂数据的同一数据上进行调整可以在两种输入类型上产生最佳结果。
Oct, 2019
本文研究了基于字符的神经机器翻译模型,并发现它们能够解决词表外的问题、学习词形变化,但是在面对嘈杂的数据时容易出现错误。作者探究了两个方法来提高模型的鲁棒性:结构不变的词表示和在噪声数据上强化训练。作者发现一个基于字符卷积神经网络的模型能够同时学习多种噪声下的鲁棒表示。
Nov, 2017