低资源场景下的语法错误修正

Oct, 2019

Grammatical Error Correction in Low-Resource Scenarios

Jakub Náplava, Milan Straka

TL;DR本文介绍了一个 Czech 语法纠错的新数据集 AKCES-GEC。我们证明使用合成平行语料库结合 Transformer 神经机器翻译模型可在 Czech，German 和 Russian 等多种语言的数据集上达到新的最高水平。AKCES-GEC 数据集已发表在 CC BY-NC-SA 4.0 许可下，GEC 模型源代码也可访问。

Abstract

grammatical error correction in English is a long studied problem with many existing systems and datasets. However, there has been only a limited research on error correction of other languages. In this paper, we present a new →

grammatical error correction czech transformer neural machine translation dataset state-of-the-art

发现论文，激发创造

利用大规模多样化语料库的捷克文语法错误纠正

本文介绍了一个众多且多元的捷克语语料库，标注有语法错误纠正 (GEC) ，目的是为语法错误纠正领域贡献其他语言的稀缺数据资源。该语法错误纠正捷克语语料库 (GECCC) 提供了四个领域的各种文本，覆盖了从非英语母语写的高错误密度论文到期望错误较少的网站文本的错误分布。我们比较了几个捷克 GEC 系统，包括几个基于转换的系统，并为未来的研究设定了一个强有力的基准线。最后，我们把 GEC 公共的评价指标用人工判断与我们的数据相比较。我们在此 http URL 下公开了新的 Czech GEC 语料库，并遵守了 CC BY-SA 4.0 的许可协议。

Jan, 2022

多语言语法错误修正的简单配方

本文提出了一种简单的方法来训练最先进的多语言语法纠错模型，使用大规模多语言语言模型来优化，建立并发布了基线数据集 cLang-8，通过单步微调得出了英语的精确度提高。

Jun, 2021

一个基于 BERT 的无监督语法错误纠正框架

本文提出了一种基于 BERT 的无监督语法错误校正框架，该框架将语法错误校正视为多类别分类任务，涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块，并提出了一种新的伪困境评分方法来评估句子的可信度，并构建了 Tagalog 语料库进行研究，其表现竞争性较强，证明了该框架对于低资源语法错误校正任务很有用处。

Mar, 2023

朝向标准化韩语语法错误修正：数据集和标注

本研究收集了 Kor-Lang8、Kor-Native 和 Kor-Learner 三个数据集，并使用新提出的 Korean Automatic Grammatical error Annotation System (KAGAS) 工具进行注释以覆盖更多语言错误类型，同时提供基于数据集调整的基线模型，并在各类错误类型上显著优于公共统计 GEC 系统 (Hanspell)，展示了数据集的多样性和实用性。

Oct, 2022

语法错误纠正：现有技术综述

在此综述文章中，我们介绍了在自然语言处理领域中的语法错误纠正任务，其中包括越来越流行的神经机器翻译系统，同时概述了任务中的语言学挑战以及常用的数据集和评价方法。我们还介绍了人类主观判断相关的可靠度指标，并总结了近年来的发展以及未来工作和仍面临的挑战，希望本综述能为新手或关注近期发展的研究人员提供全面的资源。

Nov, 2022

对世界语的语频和错误修正的分析

本文通过对 Eo-GP 数据集的综合频率分析，以及从真实用户案例中获取的 Eo-GEC 数据集，介绍了利用 GPT-3.5 和 GPT-4 模型改进 Esperanto 语法纠错策略的实验结果，证明了 GPT-4 在自动化和人工评估中的优越性，凸显了先进语言模型在改善对低资源语言的语法问题上的潜力。

Feb, 2024

阿拉伯语语法错误检测和校正的进展：实证研究

本文报道了使用两个基于 Transformer 的预训练序列到序列模型进行多类阿拉伯语语法错误检测的结果，研究表明，使用语法错误信息作为辅助输入可以提高语法纠错性能；此外，研究还探讨了上下文形态预处理在辅助语法纠错系统方面的应用，并在两个阿拉伯语 GEC 共享任务数据集上取得了最先进的结果。

May, 2023

评估优秀的语法错误修正

对瑞典学生文本进行全面评估，发现在少样本环境下，GPT-3 明显优于之前瑞典语语法错误修正系统，同时发现当前评估方法存在不可取的偏见，建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量，并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。

Aug, 2023

预训练的跨语言语言模型在多语言语法错误纠正中的统一策略

本文提出了一种通用且与语言无关的多语言语法纠错方法，通过预训练的跨语言语言模型和英语与目标语言之间的平行翻译数据，构建了多样化的平行语法纠错数据，并利用该数据训练语法纠错模型，在不同语言的三个基准测试中取得了最先进的结果。

Jan, 2022

GECTurk：用于土耳其语的语法错误校正和检测数据集

为了克服对大多数语言缺乏大量平行标注数据的问题，本研究介绍了一种灵活可扩展的合成数据生成流程，应用于土耳其语。通过复杂的转换函数，实现了 20 多个专业编辑语法和拼写规则的生成，从而得到了 13 万句高质量平行句子。使用神经机器翻译、序列标注和前缀调参等三种基线模型，取得了良好的结果，并对领域外数据集进行了详尽实验，获得有关所提方法的可迁移性和鲁棒性的深入见解。通过发布数据集、基线模型和合成数据生成流程，我们鼓励进一步研究土耳其语错误检测和纠正。

Sep, 2023