为阿姆哈拉语手动标注的拼写错误语料库
我们介绍了当代阿姆哈拉语语料库,该语料库自动标记词形句法信息,500 种不同领域的 25199 个文档收集了约 2400 万个拼写单词。由于它是部分网络语料库,因此我们进行了一些自动拼写错误更正。我们还修改了现有的形态分析器 HornMorpho,用于标记自动标记。
Jun, 2021
利用 QALB 语料库中提供的经过标注的代表有错误和更正版本的句子,本文的系统使用不同的机器学习模型对四种类型的拼写错误(修改、前添加、拆分和合并)进行修正,最终在 QALB 2014 年 “自动阿拉伯语错误修正” 任务中获得了 6 名中的第六名,F1 得分为 0.6。
Sep, 2014
通过使用转换编码器 - 解码器体系结构和对现有阿姆哈拉语语音识别测试数据集的修正,我们的研究提高了阿姆哈拉语语音识别系统的语义正确性,实现了 5.5%的字符错误率(CER)和 23.3%的词错误率(WER)。
Apr, 2024
该研究介绍了一种新的语料库,即 GitHub Typo Corpus,旨在提供全球最大的单词拼写错误和语法错误数据集,以帮助 NLP 任务。基于该数据集的初步研究结果表明,该数据集可以作为一个新的拼写错误数据源,补充现有的数据集。
Nov, 2019
描述了 IMPACT-es 历史西班牙语语料库和相应词汇表,其中包括 8 百万个单词和 1 万多个单词和他们在文件中的各种变体的链接。介绍了基于文本编码倡议的标准和标注标准,并说明了利用统计机器翻译技术推断概率上下文敏感规则的应用。
Jun, 2013
本文提出了一种新的混合方法,该方法结合了统计和句法知识来检测和纠正现实世界中的单词拼写错误,并使用 Constraint Grammar(CG)区分搜索空间中一组校正候选项。
Feb, 2023
本文介绍了一种针对 Wolof 语言打造的拼写检查和纠正工具,其利用了 trie 数据结构、动态规划以及加权 Levenshtein 距离的组合,为错误拼写的单词生成建议。研究者通过半自动化方法创建了针对 Wolof 语言的词库和错拼词语料库,展示了该拼写检查工具 98.31%的预测准确率和 93.33%的建议准确率。该工具的性能表现为 Wolof 语言的文本工具和资源的发展作出了贡献,为自动拼写检查和纠正领域的未来研究提供了坚实的基础。
May, 2023
本研究提出了一种基于序列标注方法的文法纠错方法,使用 SymSpell 和 LemmInflect 算法分别引入了拼写纠正和形态变化的特定标签,实现了小量标签纠正大量错误的目的,并在公共 BEA 基准测试中表现出了显著的性能提升。
Feb, 2023
本文研究了恶意拼写纠正的方法,提出了一种利用词嵌入的上下文敏感方法来纠正针对特定关键词的恶意拼写,证明了相比于现有的拼写检查器,该方法具有更优的性能,在互联网骚扰内容检测和电子邮件垃圾邮件检测等两个应用领域有着广泛应用。
Jan, 2019
本文提出了一种利用拼写信息和全局上下文信息共同解决自然语言处理中拼写纠错问题的简单、有效方法,即通过改进预训练语言模型的微调,将拼写纠错看作一个序列标注任务,并在此基础上显著提升之前最先进结果 12.8% 的 F0.5 评分。
Nov, 2020