多语言语法错误修正的简单配方
本文提出了一种通用且与语言无关的多语言语法纠错方法,通过预训练的跨语言语言模型和英语与目标语言之间的平行翻译数据,构建了多样化的平行语法纠错数据,并利用该数据训练语法纠错模型,在不同语言的三个基准测试中取得了最先进的结果。
Jan, 2022
本文介绍了一个 Czech 语法纠错的新数据集 AKCES-GEC。我们证明使用合成平行语料库结合 Transformer 神经机器翻译模型可在 Czech,German 和 Russian 等多种语言的数据集上达到新的最高水平。AKCES-GEC 数据集已发表在 CC BY-NC-SA 4.0 许可下,GEC 模型源代码也可访问。
Oct, 2019
本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集,并使用迭代解码策略训练了神经语法纠错模型,最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。
Apr, 2019
本文提出了一种基于 BERT 的无监督语法错误校正框架,该框架将语法错误校正视为多类别分类任务,涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块,并提出了一种新的伪困境评分方法来评估句子的可信度,并构建了 Tagalog 语料库进行研究,其表现竞争性较强,证明了该框架对于低资源语法错误校正任务很有用处。
Mar, 2023
本文通过实验研究语法错误修正,深入研究单模型系统的细微差别,比较集成和排名方法的效率,并探讨了大型语言模型在作为单模型系统、集成部分和排名方法时在语法错误修正上的应用。我们在 CoNLL-2014-test 和 BEA-test 上分别取得了 F_0.5 分数为 72.8 和 81.4 的最新最佳性能,为 GEC 的进一步发展和我们研究的可重复性提供支持。同时我们公开了我们的代码、训练模型和系统的输出结果,以便进一步推动 GEC 的发展。
Apr, 2024
介绍了一种基于语言模型和有限状态转换器的语法错误更正方法,与神经序列模型和基于短语的机器翻译相比具有更好的效果,同时无需大量的标注数据,并且在拥有标注数据的情况下,该方法也适用于基于短语的机器翻译。
Mar, 2019
利用大量弱监督的双语数据,训练 Transformer 序列到序列模型,并采用迭代解码策略来进行语法错误纠正,最终在 CoNLL'14 基准测试上获得 F0.5 为 58.3,在 JFLEG 上获得 GLEU 为 62.4,即使不使用任何有标记的 GEC 数据,在 CoNLL'14 上的 F0.5 也能达到 48.2。
Oct, 2018
本文报道了使用两个基于 Transformer 的预训练序列到序列模型进行多类阿拉伯语语法错误检测的结果,研究表明,使用语法错误信息作为辅助输入可以提高语法纠错性能;此外,研究还探讨了上下文形态预处理在辅助语法纠错系统方面的应用,并在两个阿拉伯语 GEC 共享任务数据集上取得了最先进的结果。
May, 2023
GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.
May, 2020
我们探索和改进 LLM 的能力,以生成语法错误纠正(GEC)的数据,提出了一个自动化框架,并引入了一个名为 ChatLang-8 的新数据集,该数据集包含八种主题名词和 23 种语法类型,实验结果表明我们的框架和 ChatLang-8 对于提高 ChatGPT 的数据生成能力具有价值。
Jun, 2024