为阿姆哈拉语手动标注的拼写错误语料库

ACLJun, 2021

为阿姆哈拉语手动标注的拼写错误语料库

Manually Annotated Spelling Error Corpus for Amharic

PDF

Andargachew Mekonnen Gezmu, Tirufat Tesifaye Lema, Binyam Ephrem Seyoum, Andreas Nürnberger

TL;DR本研究提供一个人工标注的阿姆哈拉语拼写错误语料库，用于拼写错误检测和校正评估，其中涵盖了非单词错误和真实单词错误，并且语料库中包含的上下文信息对于处理这两种拼写错误都非常有用。

Abstract

This paper presents a manually annotated spelling error corpus for amharic, lingua franca in Ethiopia. The →

amharic spelling error corpus evaluation contextual information

发现论文，激发创造

当代阿姆哈拉语语料库：自动进行形态句法标记的阿姆哈拉语语料库

我们介绍了当代阿姆哈拉语语料库，该语料库自动标记词形句法信息，500 种不同领域的 25199 个文档收集了约 2400 万个拼写单词。由于它是部分网络语料库，因此我们进行了一些自动拼写错误更正。我们还修改了现有的形态分析器 HornMorpho，用于标记自动标记。

Jun, 2021

基于监督学习的阿拉伯语拼写纠正

利用 QALB 语料库中提供的经过标注的代表有错误和更正版本的句子，本文的系统使用不同的机器学习模型对四种类型的拼写错误（修改、前添加、拆分和合并）进行修正，最终在 QALB 2014 年 “自动阿拉伯语错误修正” 任务中获得了 6 名中的第六名，F1 得分为 0.6。

Sep, 2014

语义修正的阿姆哈拉语自动语音识别

通过使用转换编码器 - 解码器体系结构和对现有阿姆哈拉语语音识别测试数据集的修正，我们的研究提高了阿姆哈拉语语音识别系统的语义正确性，实现了 5.5％的字符错误率（CER）和 23.3％的词错误率（WER）。

Apr, 2024

GitHub Typo Corpus：一个大规模多语言的错别字和语法错误数据集

该研究介绍了一种新的语料库，即 GitHub Typo Corpus，旨在提供全球最大的单词拼写错误和语法错误数据集，以帮助 NLP 任务。基于该数据集的初步研究结果表明，该数据集可以作为一个新的拼写错误数据源，补充现有的数据集。

Nov, 2019

历史西班牙语开放式历时语料库：标注标准和自动化拼写现代化

描述了 IMPACT-es 历史西班牙语语料库和相应词汇表，其中包括 8 百万个单词和 1 万多个单词和他们在文件中的各种变体的链接。介绍了基于文本编码倡议的标准和标注标准，并说明了利用统计机器翻译技术推断概率上下文敏感规则的应用。

Jun, 2013

矫正真实世界的拼写错误：一种新的混合方法

本文提出了一种新的混合方法，该方法结合了统计和句法知识来检测和纠正现实世界中的单词拼写错误，并使用 Constraint Grammar（CG）区分搜索空间中一组校正候选项。

Feb, 2023

Wolof 语自动拼写检查和校正：案例研究

本文介绍了一种针对 Wolof 语言打造的拼写检查和纠正工具，其利用了 trie 数据结构、动态规划以及加权 Levenshtein 距离的组合，为错误拼写的单词生成建议。研究者通过半自动化方法创建了针对 Wolof 语言的词库和错拼词语料库，展示了该拼写检查工具 98.31％的预测准确率和 93.33％的建议准确率。该工具的性能表现为 Wolof 语言的文本工具和资源的发展作出了贡献，为自动拼写检查和纠正领域的未来研究提供了坚实的基础。

May, 2023

语法错误校正的扩展序列标记词汇表

本研究提出了一种基于序列标注方法的文法纠错方法，使用 SymSpell 和 LemmInflect 算法分别引入了拼写纠正和形态变化的特定标签，实现了小量标签纠正大量错误的目的，并在公共 BEA 基准测试中表现出了显著的性能提升。

Feb, 2023

上下文敏感的恶意拼写错误修正

本文研究了恶意拼写纠正的方法，提出了一种利用词嵌入的上下文敏感方法来纠正针对特定关键词的恶意拼写，证明了相比于现有的拼写检查器，该方法具有更优的性能，在互联网骚扰内容检测和电子邮件垃圾邮件检测等两个应用领域有着广泛应用。

Jan, 2019

基于上下文的独立神经拼写校正

本文提出了一种利用拼写信息和全局上下文信息共同解决自然语言处理中拼写纠错问题的简单、有效方法，即通过改进预训练语言模型的微调，将拼写纠错看作一个序列标注任务，并在此基础上显著提升之前最先进结果 12.8% 的 F0.5 评分。

Nov, 2020