GitHub Typo Corpus：一个大规模多语言的错别字和语法错误数据集

Nov, 2019

GitHub Typo Corpus：一个大规模多语言的错别字和语法错误数据集

GitHub Typo Corpus: A Large-Scale Multilingual Dataset of Misspellings and Grammatical Errors

Masato Hagiwara, Masato Mita

TL;DR该研究介绍了一种新的语料库，即 GitHub Typo Corpus，旨在提供全球最大的单词拼写错误和语法错误数据集，以帮助 NLP 任务。基于该数据集的初步研究结果表明，该数据集可以作为一个新的拼写错误数据源，补充现有的数据集。

Abstract

The lack of large-scale datasets has been a major hindrance to the development of nlp tasks such as spelling correction and grammatical error correction (GEC). As a complementary new resource for these tasks, we present the →

nlp tasks github typo corpus misspellings grammatical errors dataset

发现论文，激发创造

使用算法生成的错拼词在多对多深度神经网络上检测波斯语排版错误类型

本研究针对波斯语（Persian）的排版错误类型检测展开研究，构建了一套公开数据集 FarsTypo，使用神经网络结合 Word 和 Character Embeddings 进行分类，获得了 97.62% 的准确率，98.83% 的精确度，并在速度方面表现优异。

May, 2023

在线市场搜索中的领域特异性和数据效率对容错拼写检查器的影响

通过数据增强和递归神经网络，我们提出了一种解决在线市场拼写错误的方法，以找到用户查询和可用产品名称之间的最佳匹配。这种数据高效的解决方案证明了受控高质量合成数据在当前依赖于庞大且常常无法控制的数据集的大型语言模型的背景下可能成为强大的工具。

Aug, 2023

利用大规模多样化语料库的捷克文语法错误纠正

本文介绍了一个众多且多元的捷克语语料库，标注有语法错误纠正 (GEC) ，目的是为语法错误纠正领域贡献其他语言的稀缺数据资源。该语法错误纠正捷克语语料库 (GECCC) 提供了四个领域的各种文本，覆盖了从非英语母语写的高错误密度论文到期望错误较少的网站文本的错误分布。我们比较了几个捷克 GEC 系统，包括几个基于转换的系统，并为未来的研究设定了一个强有力的基准线。最后，我们把 GEC 公共的评价指标用人工判断与我们的数据相比较。我们在此 http URL 下公开了新的 Czech GEC 语料库，并遵守了 CC BY-SA 4.0 的许可协议。

Jan, 2022

朝向标准化韩语语法错误修正：数据集和标注

本研究收集了 Kor-Lang8、Kor-Native 和 Kor-Learner 三个数据集，并使用新提出的 Korean Automatic Grammatical error Annotation System (KAGAS) 工具进行注释以覆盖更多语言错误类型，同时提供基于数据集调整的基线模型，并在各类错误类型上显著优于公共统计 GEC 系统 (Hanspell)，展示了数据集的多样性和实用性。

Oct, 2022

为阿姆哈拉语手动标注的拼写错误语料库

本研究提供一个人工标注的阿姆哈拉语拼写错误语料库，用于拼写错误检测和校正评估，其中涵盖了非单词错误和真实单词错误，并且语料库中包含的上下文信息对于处理这两种拼写错误都非常有用。

Jun, 2021

低资源场景下的语法错误修正

本文介绍了一个 Czech 语法纠错的新数据集 AKCES-GEC。我们证明使用合成平行语料库结合 Transformer 神经机器翻译模型可在 Czech，German 和 Russian 等多种语言的数据集上达到新的最高水平。AKCES-GEC 数据集已发表在 CC BY-NC-SA 4.0 许可下，GEC 模型源代码也可访问。

Oct, 2019

语法错误纠正的语料生成

本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集，并使用迭代解码策略训练了神经语法纠错模型，最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。

Apr, 2019

GitTables：关系表的大规模语料库

通过从 GitHub 中提取的 GitTables 数据集，我们可以训练和评估应用于深度学习的高容量模型，以实现表征模型与关系数据库表相似的表。通过进行语义类型标注、层次关系和来自 Schema.org 和 DBpedia 的描述，我们可以提供人工注释一致的结果，并通过三个应用：语义类型检测模型、模式完成方法以及用于表到知识图谱匹配的基准测试，展示 GitTables 的价值。

Jun, 2021

通过模拟多个领域和语言中的自然拼写错误，实现生成式拼写纠正的方法论

我们提出了一种对生成模型进行拼写纠错的方法，该方法通过研究文本中的自然拼写错误和打字错误，探索了模拟这些错误在正确句子中的方式，以有效丰富生成模型的预训练过程，并研究了这些模拟对模型能力的影响与文本域的关系。

Aug, 2023

一个用于细粒度实体类型标注的中文语料库

本文提出了一个包含 4800 个手工标注的中文语料库，其用于细粒度实体分类。在实验中，我们展示了一些典型细粒度实体分类模型在我们的数据集上的表现，并显示了通过跨语言迁移学习提高中文细粒度实体分类的可能性。

Apr, 2020