本文提出了一种利用拼写信息和全局上下文信息共同解决自然语言处理中拼写纠错问题的简单、有效方法,即通过改进预训练语言模型的微调,将拼写纠错看作一个序列标注任务,并在此基础上显著提升之前最先进结果 12.8% 的 F0.5 评分。
Nov, 2020
通过数据增强和递归神经网络,我们提出了一种解决在线市场拼写错误的方法,以找到用户查询和可用产品名称之间的最佳匹配。这种数据高效的解决方案证明了受控高质量合成数据在当前依赖于庞大且常常无法控制的数据集的大型语言模型的背景下可能成为强大的工具。
Aug, 2023
本文研究了恶意拼写纠正的方法,提出了一种利用词嵌入的上下文敏感方法来纠正针对特定关键词的恶意拼写,证明了相比于现有的拼写检查器,该方法具有更优的性能,在互联网骚扰内容检测和电子邮件垃圾邮件检测等两个应用领域有着广泛应用。
Jan, 2019
通过训练小规模的基于词的 Transformer 语言模型,提取语料库中的概率性错误规则,结合语言模型和错误模型,通过嘈杂信道框架开发拼写校正模型,实验验证了该方法在尼泊尔语中的有效性。
Apr, 2024
使用新颖的基于拼写错误 n-gram 映射的候选检索算法和 BERT 架构的非自回归神经模型,相较于基线 ASR 系统,在口语化维基百科上的实验显示,字错误率提高了 21.4%。
Jun, 2023
介绍 NeuSpell, 一个用于英语拼写纠正的开源工具包,其中包含十个不同的模型,并对来自多个来源的自然发生的拼写错误进行基准测试。通过训练使用上下文中的拼写错误,以及使用上下文表示,我们的工具包可以提高纠正率 9%(绝对值),在许多潜在应用中,我们证明了拼写检查器的实用性。
Oct, 2020
本文介绍了 FastSpell,这是一种语言识别工具,它结合了 fastText 和 Hunspell,并提供了细化的第二意见,以便在决定将哪种语言分配给一段文本之前使用。我们描述了 FastSpell 算法的工作原理和配置方法,并在开发 FastSpell 过程中对一些常用语言识别工具进行了评估。我们展示了 FastSpell 的用途不仅在于提高对类似语言的识别,还在于识别其他工具忽略的新语言。
本文介绍了一种将 Winnow 和加权多数表决算法相结合的算法,并将其应用于语境敏感的拼写纠正问题。通过将 WinSpell 与 BaySpell 进行比较,我们发现它在无修剪和修剪条件下都能显著提高 BaySpell 的准确性,学习了更好的线性分离器算法,且采用了在训练集上进行有监督学习和在(嘈杂的)测试集上进行无监督学习相结合的策略能够适应来自于与训练集不同的语料库的测试集.
Oct, 1998
本文提出了一种专用于孟加拉语单词拼写检查的 BERT 模型 BSpell,并采用了专用 CNN 子模型 SemanticNet 和混合预训练方案,使其在存在拼写错误的情况下实现了高度变形的孟加拉语词汇的 91.5%的精度,在两个孟加拉语和一个印地语的拼写纠正数据集上的详细比较表明了 BSpell 的优越性。
Aug, 2022
该研究使用错误一致掩蔽策略来为预训练创建数据,展示了 ECSpell 在一般基准上超越了先前的最先进模型,将可变的用户字典添加到处理零射领域适应问题的通用令牌分类基础拼写员中将进一步提高性能。
Mar, 2022