一个基于 BERT 的无监督语法错误纠正框架
GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.
May, 2020
本文报道了使用两个基于 Transformer 的预训练序列到序列模型进行多类阿拉伯语语法错误检测的结果,研究表明,使用语法错误信息作为辅助输入可以提高语法纠错性能;此外,研究还探讨了上下文形态预处理在辅助语法纠错系统方面的应用,并在两个阿拉伯语 GEC 共享任务数据集上取得了最先进的结果。
May, 2023
本研究提出了自动检测系统强度或多个系统组合的方法,在所有测试配置中一致优于最佳独立系统,并对 BERT 的应用进行了分析,同时呈现了对本任务创建的拼写检查器的实验结果。
Jun, 2019
在此综述文章中,我们介绍了在自然语言处理领域中的语法错误纠正任务,其中包括越来越流行的神经机器翻译系统,同时概述了任务中的语言学挑战以及常用的数据集和评价方法。我们还介绍了人类主观判断相关的可靠度指标,并总结了近年来的发展以及未来工作和仍面临的挑战,希望本综述能为新手或关注近期发展的研究人员提供全面的资源。
Nov, 2022
对瑞典学生文本进行全面评估,发现在少样本环境下,GPT-3 明显优于之前瑞典语语法错误修正系统,同时发现当前评估方法存在不可取的偏见,建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量,并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。
Aug, 2023
本研究提出了一种 GAN 类似的序列标注模型,采用 Gumbel-Softmax 采样和真实的错误分布来进行语法纠错,以解决传统模型训练与推理不匹配的问题,实验结果表明该方法有效,并改进了之前的最先进基准。
May, 2021
介绍了一种基于语言模型和有限状态转换器的语法错误更正方法,与神经序列模型和基于短语的机器翻译相比具有更好的效果,同时无需大量的标注数据,并且在拥有标注数据的情况下,该方法也适用于基于短语的机器翻译。
Mar, 2019
本文提出了一种通用且与语言无关的多语言语法纠错方法,通过预训练的跨语言语言模型和英语与目标语言之间的平行翻译数据,构建了多样化的平行语法纠错数据,并利用该数据训练语法纠错模型,在不同语言的三个基准测试中取得了最先进的结果。
Jan, 2022
利用大量弱监督的双语数据,训练 Transformer 序列到序列模型,并采用迭代解码策略来进行语法错误纠正,最终在 CoNLL'14 基准测试上获得 F0.5 为 58.3,在 JFLEG 上获得 GLEU 为 62.4,即使不使用任何有标记的 GEC 数据,在 CoNLL'14 上的 F0.5 也能达到 48.2。
Oct, 2018
本文提出了一种简单的方法来训练最先进的多语言语法纠错模型,使用大规模多语言语言模型来优化,建立并发布了基线数据集 cLang-8,通过单步微调得出了英语的精确度提高。
Jun, 2021