上下文敏感的恶意拼写错误修正

Jan, 2019

Context-Sensitive Malicious Spelling Error Correction

Hongyu Gong, Yuchen Li, Suma Bhat, Pramod Viswanath

TL;DR本文研究了恶意拼写纠正的方法，提出了一种利用词嵌入的上下文敏感方法来纠正针对特定关键词的恶意拼写，证明了相比于现有的拼写检查器，该方法具有更优的性能，在互联网骚扰内容检测和电子邮件垃圾邮件检测等两个应用领域有着广泛应用。

Abstract

Misspelled words of the malicious kind work by changing specific keywords and are intended to thwart existing automated applications for cyber-environment control such as harassing content detection on the Internet and email spam detection. In this paper, we focus on →

malicious spelling correction automated applications cyber-environment control word embeddings spell checkers

发现论文，激发创造

基于上下文的独立神经拼写校正

本文提出了一种利用拼写信息和全局上下文信息共同解决自然语言处理中拼写纠错问题的简单、有效方法，即通过改进预训练语言模型的微调，将拼写纠错看作一个序列标注任务，并在此基础上显著提升之前最先进结果 12.8% 的 F0.5 评分。

Nov, 2020

在线市场搜索中的领域特异性和数据效率对容错拼写检查器的影响

通过数据增强和递归神经网络，我们提出了一种解决在线市场拼写错误的方法，以找到用户查询和可用产品名称之间的最佳匹配。这种数据高效的解决方案证明了受控高质量合成数据在当前依赖于庞大且常常无法控制的数据集的大型语言模型的背景下可能成为强大的工具。

Aug, 2023

面向用户查询的上下文多语言拼写检查器

该论文介绍了一种多语种的拼写检查器，它可以根据特定产品的需求适应其词汇，并在领域特定的数据集上性能优异，可以用于搜索和为各种应用程序提供自动完成功能。

May, 2023

低资源环境下基于语言模型的上下文拼写纠错

通过训练小规模的基于词的 Transformer 语言模型，提取语料库中的概率性错误规则，结合语言模型和错误模型，通过嘈杂信道框架开发拼写校正模型，实验验证了该方法在尼泊尔语中的有效性。

Apr, 2024

通过模拟多个领域和语言中的自然拼写错误，实现生成式拼写纠正的方法论

我们提出了一种对生成模型进行拼写纠错的方法，该方法通过研究文本中的自然拼写错误和打字错误，探索了模拟这些错误在正确句子中的方式，以有效丰富生成模型的预训练过程，并研究了这些模拟对模型能力的影响与文本域的关系。

Aug, 2023

基于 Winnow 的上下文敏感拼写纠正方法

本文介绍了一种将 Winnow 和加权多数表决算法相结合的算法，并将其应用于语境敏感的拼写纠正问题。通过将 WinSpell 与 BaySpell 进行比较，我们发现它在无修剪和修剪条件下都能显著提高 BaySpell 的准确性，学习了更好的线性分离器算法，且采用了在训练集上进行有监督学习和在（嘈杂的）测试集上进行无监督学习相结合的策略能够适应来自于与训练集不同的语料库的测试集.

Oct, 1998

泰语中的拼写错误语义

本文介绍一种 fine-grained 标注的泰语拼写错误语料库，并分析其潜在语义，研究了拼写错误出现的模式，提出了两种方法来融合拼写错误的语义，即 Misspelling Average Embedding (MAE) 和 Misspelling Semantic Tokens (MST)，在情感分析任务上实验证明了拼写错误的附加语义可以提高微 F1 分数，而盲目归一化则是有害和次优的。

Jun, 2022

矫正真实世界的拼写错误：一种新的混合方法

本文提出了一种新的混合方法，该方法结合了统计和句法知识来检测和纠正现实世界中的单词拼写错误，并使用 Constraint Grammar（CG）区分搜索空间中一组校正候选项。

Feb, 2023

NeuSpell: 一个神经拼写纠正工具包

介绍 NeuSpell, 一个用于英语拼写纠正的开源工具包，其中包含十个不同的模型，并对来自多个来源的自然发生的拼写错误进行基准测试。通过训练使用上下文中的拼写错误，以及使用上下文表示，我们的工具包可以提高纠正率 9％(绝对值)，在许多潜在应用中，我们证明了拼写检查器的实用性。

Oct, 2020

一种无监督且可定制的拼写错误生成器，用于挖掘嘈杂的与健康相关的文本来源

本研究提出了一种可定制化的数据中心系统，能够自动生成复杂健康相关词汇的常见拼写错误，其拼写变量生成器依赖于从大规模未标记的文本中学习的密集向量模型，能够在过滤词汇时递归执行，生成的变体可用于在噪声环境下进行健康文本挖掘。

Jun, 2018