一个基于 BERT 的无监督语法错误纠正框架

Mar, 2023

一个基于 BERT 的无监督语法错误纠正框架

A BERT-based Unsupervised Grammatical Error Correction Framework

Nankai Lin, Hongbin Zhang, Menglan Shen, Yu Wang, Shengyi Jiang...

TL;DR本文提出了一种基于 BERT 的无监督语法错误校正框架，该框架将语法错误校正视为多类别分类任务，涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块，并提出了一种新的伪困境评分方法来评估句子的可信度，并构建了 Tagalog 语料库进行研究，其表现竞争性较强，证明了该框架对于低资源语法错误校正任务很有用处。

Abstract

grammatical error correction (GEC) is a challenging task of natural language processing techniques. While more attempts are being made in this approach for universal languages like English or Chinese, relatively little work has been done for →

grammatical error correction low-resource languages unsupervised gec bert-based framework sentence perplexity scoring

发现论文，激发创造

语法错误修正的综合性调查

GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.

May, 2020

阿拉伯语语法错误检测和校正的进展：实证研究

本文报道了使用两个基于 Transformer 的预训练序列到序列模型进行多类阿拉伯语语法错误检测的结果，研究表明，使用语法错误信息作为辅助输入可以提高语法纠错性能；此外，研究还探讨了上下文形态预处理在辅助语法纠错系统方面的应用，并在两个阿拉伯语 GEC 共享任务数据集上取得了最先进的结果。

May, 2023

学习如何结合语法纠错

本研究提出了自动检测系统强度或多个系统组合的方法，在所有测试配置中一致优于最佳独立系统，并对 BERT 的应用进行了分析，同时呈现了对本任务创建的拼写检查器的实验结果。

Jun, 2019

语法错误纠正：现有技术综述

在此综述文章中，我们介绍了在自然语言处理领域中的语法错误纠正任务，其中包括越来越流行的神经机器翻译系统，同时概述了任务中的语言学挑战以及常用的数据集和评价方法。我们还介绍了人类主观判断相关的可靠度指标，并总结了近年来的发展以及未来工作和仍面临的挑战，希望本综述能为新手或关注近期发展的研究人员提供全面的资源。

Nov, 2022

评估优秀的语法错误修正

对瑞典学生文本进行全面评估，发现在少样本环境下，GPT-3 明显优于之前瑞典语语法错误修正系统，同时发现当前评估方法存在不可取的偏见，建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量，并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。

Aug, 2023

将语法错误纠正作为类 GAN 的序列标注

本研究提出了一种 GAN 类似的序列标注模型，采用 Gumbel-Softmax 采样和真实的错误分布来进行语法纠错，以解决传统模型训练与推理不匹配的问题，实验结果表明该方法有效，并改进了之前的最先进基准。

May, 2021

基于有限状态转换器的神经语法错误纠正

介绍了一种基于语言模型和有限状态转换器的语法错误更正方法，与神经序列模型和基于短语的机器翻译相比具有更好的效果，同时无需大量的标注数据，并且在拥有标注数据的情况下，该方法也适用于基于短语的机器翻译。

Mar, 2019

预训练的跨语言语言模型在多语言语法错误纠正中的统一策略

本文提出了一种通用且与语言无关的多语言语法纠错方法，通过预训练的跨语言语言模型和英语与目标语言之间的平行翻译数据，构建了多样化的平行语法纠错数据，并利用该数据训练语法纠错模型，在不同语言的三个基准测试中取得了最先进的结果。

Jan, 2022

使用迭代解码的弱监督语法错误校正

利用大量弱监督的双语数据，训练 Transformer 序列到序列模型，并采用迭代解码策略来进行语法错误纠正，最终在 CoNLL'14 基准测试上获得 F0.5 为 58.3，在 JFLEG 上获得 GLEU 为 62.4，即使不使用任何有标记的 GEC 数据，在 CoNLL'14 上的 F0.5 也能达到 48.2。

Oct, 2018

多语言语法错误修正的简单配方

本文提出了一种简单的方法来训练最先进的多语言语法纠错模型，使用大规模多语言语言模型来优化，建立并发布了基线数据集 cLang-8，通过单步微调得出了英语的精确度提高。

Jun, 2021