面向用户查询的上下文多语言拼写检查器

May, 2023

面向用户查询的上下文多语言拼写检查器

Contextual Multilingual Spellchecker for User Queries

Sanat Sharma, Josep Valls-Vargas, Tracy Holloway King, Francois Guerin, Chirag Arora

TL;DR该论文介绍了一种多语种的拼写检查器，它可以根据特定产品的需求适应其词汇，并在领域特定的数据集上性能优异，可以用于搜索和为各种应用程序提供自动完成功能。

Abstract

spellchecking is one of the most fundamental and widely used search features. Correcting incorrectly spelled user queries not only enhances the user experience but is expected by the user. However, most widely av

spellchecking multilingual vocabulary adaptation product-specific search

发现论文，激发创造

基于上下文的独立神经拼写校正

本文提出了一种利用拼写信息和全局上下文信息共同解决自然语言处理中拼写纠错问题的简单、有效方法，即通过改进预训练语言模型的微调，将拼写纠错看作一个序列标注任务，并在此基础上显著提升之前最先进结果 12.8% 的 F0.5 评分。

Nov, 2020

在线市场搜索中的领域特异性和数据效率对容错拼写检查器的影响

通过数据增强和递归神经网络，我们提出了一种解决在线市场拼写错误的方法，以找到用户查询和可用产品名称之间的最佳匹配。这种数据高效的解决方案证明了受控高质量合成数据在当前依赖于庞大且常常无法控制的数据集的大型语言模型的背景下可能成为强大的工具。

Aug, 2023

上下文敏感的恶意拼写错误修正

本文研究了恶意拼写纠正的方法，提出了一种利用词嵌入的上下文敏感方法来纠正针对特定关键词的恶意拼写，证明了相比于现有的拼写检查器，该方法具有更优的性能，在互联网骚扰内容检测和电子邮件垃圾邮件检测等两个应用领域有着广泛应用。

Jan, 2019

低资源环境下基于语言模型的上下文拼写纠错

通过训练小规模的基于词的 Transformer 语言模型，提取语料库中的概率性错误规则，结合语言模型和错误模型，通过嘈杂信道框架开发拼写校正模型，实验验证了该方法在尼泊尔语中的有效性。

Apr, 2024

SpellMapper：基于 n-gram 映射的 ASR 自定义非自回归神经拼写检查器

使用新颖的基于拼写错误 n-gram 映射的候选检索算法和 BERT 架构的非自回归神经模型，相较于基线 ASR 系统，在口语化维基百科上的实验显示，字错误率提高了 21.4％。

Jun, 2023

NeuSpell: 一个神经拼写纠正工具包

介绍 NeuSpell, 一个用于英语拼写纠正的开源工具包，其中包含十个不同的模型，并对来自多个来源的自然发生的拼写错误进行基准测试。通过训练使用上下文中的拼写错误，以及使用上下文表示，我们的工具包可以提高纠正率 9％(绝对值)，在许多潜在应用中，我们证明了拼写检查器的实用性。

Oct, 2020

FastSpell：LangId 魔法拼写

本文介绍了 FastSpell，这是一种语言识别工具，它结合了 fastText 和 Hunspell，并提供了细化的第二意见，以便在决定将哪种语言分配给一段文本之前使用。我们描述了 FastSpell 算法的工作原理和配置方法，并在开发 FastSpell 过程中对一些常用语言识别工具进行了评估。我们展示了 FastSpell 的用途不仅在于提高对类似语言的识别，还在于识别其他工具忽略的新语言。

Apr, 2024

基于 Winnow 的上下文敏感拼写纠正方法

本文介绍了一种将 Winnow 和加权多数表决算法相结合的算法，并将其应用于语境敏感的拼写纠正问题。通过将 WinSpell 与 BaySpell 进行比较，我们发现它在无修剪和修剪条件下都能显著提高 BaySpell 的准确性，学习了更好的线性分离器算法，且采用了在训练集上进行有监督学习和在（嘈杂的）测试集上进行无监督学习相结合的策略能够适应来自于与训练集不同的语料库的测试集.

Oct, 1998

BSpell：基于 CNN 和 BERT 的孟加拉语拼写检查器

本文提出了一种专用于孟加拉语单词拼写检查的 BERT 模型 BSpell，并采用了专用 CNN 子模型 SemanticNet 和混合预训练方案，使其在存在拼写错误的情况下实现了高度变形的孟加拉语词汇的 91.5％的精度，在两个孟加拉语和一个印地语的拼写纠正数据集上的详细比较表明了 BSpell 的优越性。

Aug, 2022

具有误差一致预训练的通用和领域自适应中文拼写检查

该研究使用错误一致掩蔽策略来为预训练创建数据，展示了 ECSpell 在一般基准上超越了先前的最先进模型，将可变的用户字典添加到处理零射领域适应问题的通用令牌分类基础拼写员中将进一步提高性能。

Mar, 2022