命名实体识别中对大小写错误的鲁棒性
本文通过预测文本大小写的方式,提出了一种新方法改进了命名实体识别在嘈杂无序情况下的稳健性表现,该方法利用未标注数据的真实大小写器与标准的 BiLSTM-CRF 模型结合。实验表明我们的方法在无序文本中提高了性能,并在 WNUT17 共享任务数据集上实现了新的最佳效果。
Dec, 2019
本研究提出了一种基于递归神经网络的两级分层的单词和字符的快速,准确和紧凑的文本真实大小写还原模型,该模型被用于在联合学习框架下的语言建模。经过归一化处理的语料库的语言模型表现与完美大小写匹配处理的语料库的模型表现相当,这对于虚拟键盘应用程序中的减少预测误差率至关重要。在用户 A/B 实验中,我们还展示了该模型能够减少语音识别中的大写字符错误率和单词错误率。
Feb, 2022
本研究通过修改大小写来解决 NLP 任务中大写信号的问题,将大小写训练数据串联起来可以使模型在大小写文本中都拥有良好的性能,同时对嘈杂的 Twitter 数据进行测试,结果表明我们的解决方案提高了 8%的 F1 检测率。
Mar, 2019
为应对对抗性拼写错误,本文提出在下游分类器前放置一个单词识别模型。该方法使用基于 RNN 的半字符架构的单词识别模型,并引入了几种新的回退策略来处理罕见和未见单词。与半字符模型相比,该方法实现了 32% 的相对误差降低(和 3.3% 的绝对误差降低)。本文提出的方法不仅可以提升鲁棒性,还可以超越敌对训练和现成的拼写检查器。
May, 2019
本文研究如何提高神经机器翻译模型对于嘈杂文本的鲁棒性,针对常见人为错误和三种噪声类型,使用视觉上下文和错误训练来提高模型的性能。实验结果表明,多模态和错误校正组件在保持清洁文本翻译质量的基础上,提高了模型对嘈杂文本的鲁棒性。
Mar, 2021
研究机器阅读理解模型对实体更名的鲁棒性,并发现实体更名对于 MRC 模型的预测准确率有显著影响。通过使用各种不同的源数据自动替换实体名称,我们在五个数据集和三个预训练模型结构上验证了该问题,并发现 SpanBERT 模型在实体更名下具有更好的鲁棒性。此外,我们还尝试了不同的遮蔽策略,发现基于实体遮蔽的方法能够提高 MRC 模型的鲁棒性。
Oct, 2021
本文介绍了一种基于神经网络的自然语言校正方法,该方法以字符级别操作避免了词汇表外的问题,并展示了在语言学习者论坛收集的数据集上的灵活性和性能。与语言建模相结合后,该方法在 CoNLL 2014 共享任务中实现了最先进的 $F_{0.5}$- 分数。
Mar, 2016
本文旨在研究预训练语言编码器(ELMo,BERT 和 RoBERTa)在面对自然语法错误时的表现,通过采集真实语法错误和进行对抗性攻击来模拟这些错误对干净文本数据的影响。结果证实,所有测试模型的性能都受到了影响,但影响程度有所不同。此外,我们设计了一个语言接受度任务来揭示它们在识别不符合语法的句子和错误位置方面的能力。本文的结果有助于理解语言编码器对语法错误的鲁棒性和行为。
May, 2020
本文在处理嘈杂的文本数据或 OCR 输出时,提出了改进的噪声感知训练方法,并通过一种从无误文本翻译为有误文本的序列对序列模型,提出了实证误差生成方法。利用 OCR 引擎生成大型平行文本语料库进行训练,针对错误序列标注数据集提出了多种真实世界的噪声序列标注基准。通过学习基于噪声语言模型的嵌入,可以克服文本输入不完美时数据稀疏性问题。我们的方法在错误的序列标注数据集上优于基线噪声生成和错误修正技术,为未来的鲁棒性研究提供了帮助,我们作为开源项目提供了我们的代码、嵌入和数据转换脚本。
May, 2021
本文研究了 NLP 在含有误差的单词形式下的稳健性,考虑了不同类型和组合的误差分布、不同模型和基本单元对 NLP 任务(如形态标注和机器翻译)的影响,以及神经网络在此类应用中的鲁棒性。
Apr, 2017