预训练的跨语言语言模型在多语言语法错误纠正中的统一策略
本文提出了一种简单的方法来训练最先进的多语言语法纠错模型,使用大规模多语言语言模型来优化,建立并发布了基线数据集 cLang-8,通过单步微调得出了英语的精确度提高。
Jun, 2021
本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集,并使用迭代解码策略训练了神经语法纠错模型,最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。
Apr, 2019
本文提出了一种基于 BERT 的无监督语法错误校正框架,该框架将语法错误校正视为多类别分类任务,涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块,并提出了一种新的伪困境评分方法来评估句子的可信度,并构建了 Tagalog 语料库进行研究,其表现竞争性较强,证明了该框架对于低资源语法错误校正任务很有用处。
Mar, 2023
该论文提出了一套适用于大多数语法错误修正(GEC)环境的模型无关方法,包括添加源端噪音,领域自适应技术,GEC 特定训练目标,单语数据的迁移学习以及集成独立训练的 GEC 模型和语言模型。这些方法的综合效果导致比现有最优神经 GEC 模型更好的表现,表现优于 CoNLL-2014 基准测试中以前最好的神经 GEC 系统超过 10%M2,以及 JFLEG 测试集中的 5.9%。
Apr, 2018
本文提出了一种复制增强的神经机器翻译方法,使用未标注的 One Billion Benchmark 进行降噪自编码器的预训练,并针对语法错误纠正任务进行了多任务学习,实现了 CoNLL-2014 数据集上的最优结果。
Mar, 2019
本文介绍了一个 Czech 语法纠错的新数据集 AKCES-GEC。我们证明使用合成平行语料库结合 Transformer 神经机器翻译模型可在 Czech,German 和 Russian 等多种语言的数据集上达到新的最高水平。AKCES-GEC 数据集已发表在 CC BY-NC-SA 4.0 许可下,GEC 模型源代码也可访问。
Oct, 2019
本文报道了使用两个基于 Transformer 的预训练序列到序列模型进行多类阿拉伯语语法错误检测的结果,研究表明,使用语法错误信息作为辅助输入可以提高语法纠错性能;此外,研究还探讨了上下文形态预处理在辅助语法纠错系统方面的应用,并在两个阿拉伯语 GEC 共享任务数据集上取得了最先进的结果。
May, 2023
该研究提出了一种名为 SynGEC 的句法增强语法纠错方法,它有效地将依赖句法信息纳入 GEC 模型的编码器部分,其中重点挑战是在处理不合语法的句子时,标准分析器是不可靠的。为了克服这一挑战,我们提出使用并行 GEC 训练数据作为枢轴构建定制的 GEC 定向解析器 (GOPar),并采用图卷积网络来编码 GOPar 产生的源侧句法信息,将它们与转换器编码器的输出融合,在英汉 GEC 数据集上的实验表明,我们提出的 SynGEC 方法一致且大幅优于强大的基准,并取得了有竞争力的性能
Oct, 2022
介绍了一种基于语言模型和有限状态转换器的语法错误更正方法,与神经序列模型和基于短语的机器翻译相比具有更好的效果,同时无需大量的标注数据,并且在拥有标注数据的情况下,该方法也适用于基于短语的机器翻译。
Mar, 2019
我们探索和改进 LLM 的能力,以生成语法错误纠正(GEC)的数据,提出了一个自动化框架,并引入了一个名为 ChatLang-8 的新数据集,该数据集包含八种主题名词和 23 种语法类型,实验结果表明我们的框架和 ChatLang-8 对于提高 ChatGPT 的数据生成能力具有价值。
Jun, 2024