矫正真实世界的拼写错误:一种新的混合方法
本研究比较 Mays, Damerau 和 Mercer 提出的实际单词错误校正模型,并提出了新的改进方法,利用概率上下文无关文法(PCFG)来检测和纠正句子中的多个实际单词错误。在 Wall Street Journal 语料库上的测试表明,该方法优于 Hirst 和 Budanitsky 的 WordNet 方法和 Wilcox-O'Hearn,Hirst 和 Budanitsky 的固定窗口大小的方法。
Feb, 2023
本文提出了一种利用拼写信息和全局上下文信息共同解决自然语言处理中拼写纠错问题的简单、有效方法,即通过改进预训练语言模型的微调,将拼写纠错看作一个序列标注任务,并在此基础上显著提升之前最先进结果 12.8% 的 F0.5 评分。
Nov, 2020
我们提出了一种对生成模型进行拼写纠错的方法,该方法通过研究文本中的自然拼写错误和打字错误,探索了模拟这些错误在正确句子中的方式,以有效丰富生成模型的预训练过程,并研究了这些模拟对模型能力的影响与文本域的关系。
Aug, 2023
本文介绍了一种基于神经网络的自然语言校正方法,该方法以字符级别操作避免了词汇表外的问题,并展示了在语言学习者论坛收集的数据集上的灵活性和性能。与语言建模相结合后,该方法在 CoNLL 2014 共享任务中实现了最先进的 $F_{0.5}$- 分数。
Mar, 2016
使用新颖的基于拼写错误 n-gram 映射的候选检索算法和 BERT 架构的非自回归神经模型,相较于基线 ASR 系统,在口语化维基百科上的实验显示,字错误率提高了 21.4%。
Jun, 2023
使用不同的 seq2seq 模型架构(如递归神经网络(RNN)和 Transformer)和人工数据生成进行错误注入,本研究介绍了一种用于阿拉伯语拼写纠正的框架 AraSpell,并通过彻底的实验研究提供了所提方法的有效性的经验论据,其与标记数据相比,词错误率(WER)和字符错误率(CER)分别达到了 4.8% 和 1.11%,与标记数据相比,CER 分别为 2.9%,WER 为 10.65%。这些结果都是在一个包含 100K 个句子的测试集上获得的。
May, 2024
通过训练小规模的基于词的 Transformer 语言模型,提取语料库中的概率性错误规则,结合语言模型和错误模型,通过嘈杂信道框架开发拼写校正模型,实验验证了该方法在尼泊尔语中的有效性。
Apr, 2024
该研究提出了一种新方法以训练拼写纠错模型来纠正注意力机制序列到序列语音识别模型中的错误,从而改进了性能。在 LibriSpeech 数据集上,该模型相对于基线模型的相对改进为 18.6%,相对于使用扩展语言模型重新评分的 n-best 列表的改进为 29.0%。
Feb, 2019
该研究提出了一种用于汉语语法错误纠正任务的神经网络模型,包含拼写错误纠正和语法错误纠正两个步骤,并使用词性特征和语义类别特征进行增强以提高模型性能。最终模型在没有使用人工合成数据或数据增强方法的情况下在 CGEC 数据集上取得了 42.11 F0.5 得分,并且在捕捉不同词性词汇和传达合理词性转换规则方面表现突出。
Nov, 2022
本文研究如何通过有限的人工标注数据,使用基于注意力机制的序列到序列模型及简单的后处理程序、进行人工数据合成,以提高文本纠错的准确率。实验结果表明,我们的方法可生成质量较高的人工数据集,有效地提高了基于双向 LSTM 的文本纠错方法的性能水平。
Sep, 2018