上下文敏感的恶意拼写错误修正
本文提出了一种利用拼写信息和全局上下文信息共同解决自然语言处理中拼写纠错问题的简单、有效方法,即通过改进预训练语言模型的微调,将拼写纠错看作一个序列标注任务,并在此基础上显著提升之前最先进结果 12.8% 的 F0.5 评分。
Nov, 2020
通过数据增强和递归神经网络,我们提出了一种解决在线市场拼写错误的方法,以找到用户查询和可用产品名称之间的最佳匹配。这种数据高效的解决方案证明了受控高质量合成数据在当前依赖于庞大且常常无法控制的数据集的大型语言模型的背景下可能成为强大的工具。
Aug, 2023
该论文介绍了一种多语种的拼写检查器,它可以根据特定产品的需求适应其词汇,并在领域特定的数据集上性能优异,可以用于搜索和为各种应用程序提供自动完成功能。
May, 2023
通过训练小规模的基于词的 Transformer 语言模型,提取语料库中的概率性错误规则,结合语言模型和错误模型,通过嘈杂信道框架开发拼写校正模型,实验验证了该方法在尼泊尔语中的有效性。
Apr, 2024
我们提出了一种对生成模型进行拼写纠错的方法,该方法通过研究文本中的自然拼写错误和打字错误,探索了模拟这些错误在正确句子中的方式,以有效丰富生成模型的预训练过程,并研究了这些模拟对模型能力的影响与文本域的关系。
Aug, 2023
本文介绍了一种将 Winnow 和加权多数表决算法相结合的算法,并将其应用于语境敏感的拼写纠正问题。通过将 WinSpell 与 BaySpell 进行比较,我们发现它在无修剪和修剪条件下都能显著提高 BaySpell 的准确性,学习了更好的线性分离器算法,且采用了在训练集上进行有监督学习和在(嘈杂的)测试集上进行无监督学习相结合的策略能够适应来自于与训练集不同的语料库的测试集.
Oct, 1998
本文介绍一种 fine-grained 标注的泰语拼写错误语料库,并分析其潜在语义,研究了拼写错误出现的模式,提出了两种方法来融合拼写错误的语义,即 Misspelling Average Embedding (MAE) 和 Misspelling Semantic Tokens (MST),在情感分析任务上实验证明了拼写错误的附加语义可以提高微 F1 分数,而盲目归一化则是有害和次优的。
Jun, 2022
本文提出了一种新的混合方法,该方法结合了统计和句法知识来检测和纠正现实世界中的单词拼写错误,并使用 Constraint Grammar(CG)区分搜索空间中一组校正候选项。
Feb, 2023
介绍 NeuSpell, 一个用于英语拼写纠正的开源工具包,其中包含十个不同的模型,并对来自多个来源的自然发生的拼写错误进行基准测试。通过训练使用上下文中的拼写错误,以及使用上下文表示,我们的工具包可以提高纠正率 9%(绝对值),在许多潜在应用中,我们证明了拼写检查器的实用性。
Oct, 2020
本研究提出了一种可定制化的数据中心系统,能够自动生成复杂健康相关词汇的常见拼写错误,其拼写变量生成器依赖于从大规模未标记的文本中学习的密集向量模型,能够在过滤词汇时递归执行,生成的变体可用于在噪声环境下进行健康文本挖掘。
Jun, 2018