矫正真实世界的拼写错误：一种新的混合方法

Feb, 2023

矫正真实世界的拼写错误：一种新的混合方法

Correcting Real-Word Spelling Errors: A New Hybrid Approach

Seyed MohammadSadegh Dashti, Amid Khatibi Bardsiri, Vahid Khatibi Bardsiri

TL;DR本文提出了一种新的混合方法，该方法结合了统计和句法知识来检测和纠正现实世界中的单词拼写错误，并使用 Constraint Grammar（CG）区分搜索空间中一组校正候选项。

Abstract

spelling correction is one of the main tasks in the field of Natural Language Processing. Contrary to common spelling errors, real-word errors cannot be detected by conventional →

spelling correction real-word errors constraint grammar syntactic knowledge hybrid approach

发现论文，激发创造

使用三元组进行实词错误修正：修正句子中的多个错误

本研究比较 Mays, Damerau 和 Mercer 提出的实际单词错误校正模型，并提出了新的改进方法，利用概率上下文无关文法（PCFG）来检测和纠正句子中的多个实际单词错误。在 Wall Street Journal 语料库上的测试表明，该方法优于 Hirst 和 Budanitsky 的 WordNet 方法和 Wilcox-O'Hearn，Hirst 和 Budanitsky 的固定窗口大小的方法。

Feb, 2023

基于上下文的独立神经拼写校正

本文提出了一种利用拼写信息和全局上下文信息共同解决自然语言处理中拼写纠错问题的简单、有效方法，即通过改进预训练语言模型的微调，将拼写纠错看作一个序列标注任务，并在此基础上显著提升之前最先进结果 12.8% 的 F0.5 评分。

Nov, 2020

通过模拟多个领域和语言中的自然拼写错误，实现生成式拼写纠正的方法论

我们提出了一种对生成模型进行拼写纠错的方法，该方法通过研究文本中的自然拼写错误和打字错误，探索了模拟这些错误在正确句子中的方式，以有效丰富生成模型的预训练过程，并研究了这些模拟对模型能力的影响与文本域的关系。

Aug, 2023

基于字符注意力机制的神经语言纠错

本文介绍了一种基于神经网络的自然语言校正方法，该方法以字符级别操作避免了词汇表外的问题，并展示了在语言学习者论坛收集的数据集上的灵活性和性能。与语言建模相结合后，该方法在 CoNLL 2014 共享任务中实现了最先进的 $F_{0.5}$- 分数。

Mar, 2016

SpellMapper：基于 n-gram 映射的 ASR 自定义非自回归神经拼写检查器

使用新颖的基于拼写错误 n-gram 映射的候选检索算法和 BERT 架构的非自回归神经模型，相较于基线 ASR 系统，在口语化维基百科上的实验显示，字错误率提高了 21.4％。

Jun, 2023

AraSpell：一种用于阿拉伯语拼写纠正的深度学习方法

使用不同的 seq2seq 模型架构（如递归神经网络（RNN）和 Transformer）和人工数据生成进行错误注入，本研究介绍了一种用于阿拉伯语拼写纠正的框架 AraSpell，并通过彻底的实验研究提供了所提方法的有效性的经验论据，其与标记数据相比，词错误率（WER）和字符错误率（CER）分别达到了 4.8% 和 1.11%，与标记数据相比，CER 分别为 2.9%，WER 为 10.65%。这些结果都是在一个包含 100K 个句子的测试集上获得的。

May, 2024

低资源环境下基于语言模型的上下文拼写纠错

通过训练小规模的基于词的 Transformer 语言模型，提取语料库中的概率性错误规则，结合语言模型和错误模型，通过嘈杂信道框架开发拼写校正模型，实验验证了该方法在尼泊尔语中的有效性。

Apr, 2024

一种用于端到端语音识别的拼写校正模型

该研究提出了一种新方法以训练拼写纠错模型来纠正注意力机制序列到序列语音识别模型中的错误，从而改进了性能。在 LibriSpeech 数据集上，该模型相对于基线模型的相对改进为 18.6％，相对于使用扩展语言模型重新评分的 n-best 列表的改进为 29.0％。

Feb, 2019

从拼写到语法：汉语语法错误纠正的新框架

该研究提出了一种用于汉语语法错误纠正任务的神经网络模型，包含拼写错误纠正和语法错误纠正两个步骤，并使用词性特征和语义类别特征进行增强以提高模型性能。最终模型在没有使用人工合成数据或数据增强方法的情况下在 CGEC 数据集上取得了 42.11 F0.5 得分，并且在捕捉不同词性词汇和传达合理词性转换规则方面表现突出。

Nov, 2022

纠错与提升：生成更好的错误以提高语法错误检测

本文研究如何通过有限的人工标注数据，使用基于注意力机制的序列到序列模型及简单的后处理程序、进行人工数据合成，以提高文本纠错的准确率。实验结果表明，我们的方法可生成质量较高的人工数据集，有效地提高了基于双向 LSTM 的文本纠错方法的性能水平。

Sep, 2018