使用强大的拼写校正器来使塞内加尔沃洛夫语言复兴
本文介绍了一种针对 Wolof 语言打造的拼写检查和纠正工具,其利用了 trie 数据结构、动态规划以及加权 Levenshtein 距离的组合,为错误拼写的单词生成建议。研究者通过半自动化方法创建了针对 Wolof 语言的词库和错拼词语料库,展示了该拼写检查工具 98.31%的预测准确率和 93.33%的建议准确率。该工具的性能表现为 Wolof 语言的文本工具和资源的发展作出了贡献,为自动拼写检查和纠正领域的未来研究提供了坚实的基础。
May, 2023
本文提出了一种针对 Wolof 语的神经机器翻译系统,采用基于 LSTM 的编码器 - 解码器结构,并通过引入双向 LSTM 和注意力机制来进一步扩展。实验结果表明,在非常低的资源条件下,该方法在法语 - Wolof 翻译任务中表现出有前途的翻译效果,最佳模型达到了 47% 的 BLEU 得分。
Mar, 2020
本文介绍了针对非洲语言首次提供的高质量对话数据集,并通过深度单语模型 DialoGPT 和 BlenderBot 以及基准模型 seq2seq 对其进行建模,利用重叠度进行效果分析,同时通过人类评估方法验证其有效性,发现深度单语模型可以学习一些泛化跨语言的抽象,人类得分最高的是奈及利亚皮钦英语。
Apr, 2022
本文提出了一种利用拼写信息和全局上下文信息共同解决自然语言处理中拼写纠错问题的简单、有效方法,即通过改进预训练语言模型的微调,将拼写纠错看作一个序列标注任务,并在此基础上显著提升之前最先进结果 12.8% 的 F0.5 评分。
Nov, 2020
本文介绍了一种基于神经网络的自然语言校正方法,该方法以字符级别操作避免了词汇表外的问题,并展示了在语言学习者论坛收集的数据集上的灵活性和性能。与语言建模相结合后,该方法在 CoNLL 2014 共享任务中实现了最先进的 $F_{0.5}$- 分数。
Mar, 2016
使用不同的 seq2seq 模型架构(如递归神经网络(RNN)和 Transformer)和人工数据生成进行错误注入,本研究介绍了一种用于阿拉伯语拼写纠正的框架 AraSpell,并通过彻底的实验研究提供了所提方法的有效性的经验论据,其与标记数据相比,词错误率(WER)和字符错误率(CER)分别达到了 4.8% 和 1.11%,与标记数据相比,CER 分别为 2.9%,WER 为 10.65%。这些结果都是在一个包含 100K 个句子的测试集上获得的。
May, 2024
本文介绍如何利用去噪变形器来解决自然语言处理中的拼写错误纠正问题,还提出了一种从头创建大规模语料库的方法,并在孟加拉语的拼写错误纠正中获得显著性能优于现有方法的结果。
Nov, 2022
介绍 NeuSpell, 一个用于英语拼写纠正的开源工具包,其中包含十个不同的模型,并对来自多个来源的自然发生的拼写错误进行基准测试。通过训练使用上下文中的拼写错误,以及使用上下文表示,我们的工具包可以提高纠正率 9%(绝对值),在许多潜在应用中,我们证明了拼写检查器的实用性。
Oct, 2020