使用强大的拼写校正器来使塞内加尔沃洛夫语言复兴

May, 2023

使用强大的拼写校正器来使塞内加尔沃洛夫语言复兴

Beqi: Revitalize the Senegalese Wolof Language with a Robust Spelling Corrector

Derguene Mbaye, Moussa Diallo

TL;DR本研究应用深度学习技术解决 Wolof 语言拼写纠错的问题，通过生成合成数据的方式减轻低资源语言没有语料库的限制，同时还探究了不同子词处理方法对模型性能的影响。

Abstract

The progress of natural language processing (NLP), although fast in recent years, is not at the same pace for all languages. african languages in particular are still behind and lack automatic processing tools. S

natural language processing african languages spelling correction deep learning wolof

发现论文，激发创造

Wolof 语自动拼写检查和校正：案例研究

本文介绍了一种针对 Wolof 语言打造的拼写检查和纠正工具，其利用了 trie 数据结构、动态规划以及加权 Levenshtein 距离的组合，为错误拼写的单词生成建议。研究者通过半自动化方法创建了针对 Wolof 语言的词库和错拼词语料库，展示了该拼写检查工具 98.31％的预测准确率和 93.33％的建议准确率。该工具的性能表现为 Wolof 语言的文本工具和资源的发展作出了贡献，为自动拼写检查和纠正领域的未来研究提供了坚实的基础。

May, 2023

塞内加尔沃洛夫语的低资源机器翻译

本文介绍了一种基于循环神经网络（RNN）的机器翻译模型，结合次词单元和法语 - 英语语言对培训，提高了 Wolof / 法语对翻译性能。

May, 2023

使用 LSTM 将法语翻译为塞内加尔本地语言：以沃洛夫语为例

本文提出了一种针对 Wolof 语的神经机器翻译系统，采用基于 LSTM 的编码器 - 解码器结构，并通过引入双向 LSTM 和注意力机制来进一步扩展。实验结果表明，在非常低的资源条件下，该方法在法语 - Wolof 翻译任务中表现出有前途的翻译效果，最佳模型达到了 47% 的 BLEU 得分。

Mar, 2020

AfriWOZ: 利用跨语言可传递性生成低资源非洲语言对话的语料库

本文介绍了针对非洲语言首次提供的高质量对话数据集，并通过深度单语模型 DialoGPT 和 BlenderBot 以及基准模型 seq2seq 对其进行建模，利用重叠度进行效果分析，同时通过人类评估方法验证其有效性，发现深度单语模型可以学习一些泛化跨语言的抽象，人类得分最高的是奈及利亚皮钦英语。

Apr, 2022

基于上下文的独立神经拼写校正

本文提出了一种利用拼写信息和全局上下文信息共同解决自然语言处理中拼写纠错问题的简单、有效方法，即通过改进预训练语言模型的微调，将拼写纠错看作一个序列标注任务，并在此基础上显著提升之前最先进结果 12.8% 的 F0.5 评分。

Nov, 2020

基于字符注意力机制的神经语言纠错

本文介绍了一种基于神经网络的自然语言校正方法，该方法以字符级别操作避免了词汇表外的问题，并展示了在语言学习者论坛收集的数据集上的灵活性和性能。与语言建模相结合后，该方法在 CoNLL 2014 共享任务中实现了最先进的 $F_{0.5}$- 分数。

Mar, 2016

非洲语言词典和平行数据集的协同构建：初步评估

该研究报告介绍了 NTeALan 协会在非洲语言处理中建立开源平台协作构建词典数据等资源的最新成果。

Mar, 2021

AraSpell：一种用于阿拉伯语拼写纠正的深度学习方法

使用不同的 seq2seq 模型架构（如递归神经网络（RNN）和 Transformer）和人工数据生成进行错误注入，本研究介绍了一种用于阿拉伯语拼写纠正的框架 AraSpell，并通过彻底的实验研究提供了所提方法的有效性的经验论据，其与标记数据相比，词错误率（WER）和字符错误率（CER）分别达到了 4.8% 和 1.11%，与标记数据相比，CER 分别为 2.9%，WER 为 10.65%。这些结果都是在一个包含 100K 个句子的测试集上获得的。

May, 2024

DPCSpell：基于 Transformer 的孟加拉语和资源稀缺的印度语拼写错误检查器、净化器和修正器框架

本文介绍如何利用去噪变形器来解决自然语言处理中的拼写错误纠正问题，还提出了一种从头创建大规模语料库的方法，并在孟加拉语的拼写错误纠正中获得显著性能优于现有方法的结果。

Nov, 2022

NeuSpell: 一个神经拼写纠正工具包

介绍 NeuSpell, 一个用于英语拼写纠正的开源工具包，其中包含十个不同的模型，并对来自多个来源的自然发生的拼写错误进行基准测试。通过训练使用上下文中的拼写错误，以及使用上下文表示，我们的工具包可以提高纠正率 9％(绝对值)，在许多潜在应用中，我们证明了拼写检查器的实用性。

Oct, 2020