将语法错误纠正作为类 GAN 的序列标注
本文提出了一种基于 BERT 的无监督语法错误校正框架,该框架将语法错误校正视为多类别分类任务,涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块,并提出了一种新的伪困境评分方法来评估句子的可信度,并构建了 Tagalog 语料库进行研究,其表现竞争性较强,证明了该框架对于低资源语法错误校正任务很有用处。
Mar, 2023
介绍了一种基于语言模型和有限状态转换器的语法错误更正方法,与神经序列模型和基于短语的机器翻译相比具有更好的效果,同时无需大量的标注数据,并且在拥有标注数据的情况下,该方法也适用于基于短语的机器翻译。
Mar, 2019
本研究提出了 MainGEC 方法,通过利用数据标注的准确性和潜在注释的多样性的内在差异设计了基于令牌级和句子级训练权重,并进行了混合粒度加权训练以改善 GEC 的训练效果。经验证实,MainGEC 在两个基准数据集上以 Seq2Seq 或 Seq2Edit 方式表现出一致且显著的性能提升,证明了混合粒度加权训练的有效性和优越性。进一步的消融实验验证了 MainGEC 中设计的两个粒度权重的有效性。
Nov, 2023
利用大量弱监督的双语数据,训练 Transformer 序列到序列模型,并采用迭代解码策略来进行语法错误纠正,最终在 CoNLL'14 基准测试上获得 F0.5 为 58.3,在 JFLEG 上获得 GLEU 为 62.4,即使不使用任何有标记的 GEC 数据,在 CoNLL'14 上的 F0.5 也能达到 48.2。
Oct, 2018
该论文提出了一种新颖的流利性提升学习和推理机制,结合卷积 seq2seq 模型,成功将神经序列到序列的方法应用于语法错误纠正 (GEC),在 CoNLL-2014 10 注释数据集上获得了 75.72(F_{0.5})的最好表现,在 JFLEG 测试集上获得了 62.42(GLEU))的最好表现,并成为首个在这两项基准测试中都达到人类水平性能(分别为 CoNLL-2014 72.58 和 JFLEG 62.37)的 GEC 系统。
Jul, 2018
本文提出一种名为 Sequence-to-Action(S2A)的模型,可以联合输入源和目标句子,并在预测每个标记之前自动生成一个基于标记的动作序列,以提供更好的语法纠错性能。在英语和中文 GEC 任务的基准数据集上进行实验,证明我们的模型相对于基线模型具有更好的性能和生成结果的普适性和多样性。
May, 2022
GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.
May, 2020
本研究介绍一种名为 DeCoGLM 的综合检测和纠错结构,通过使用 General Language Model (GLM) 为基础,提供了在单个模型中进行多任务学习的方法,并表明该结构在大型语言模型中的有效性,为语法纠错提供了一个有前途的方向。
May, 2024
通过基于嵌套注意力层的混合神经模型,将神经机器翻译方法发展应用于语法纠错,实验证明该模型对单词或字符水平上的错误检测和修复均具有良好的效果,并在 CoNLL-14 基准测试数据集上明显优于以往的神经模型,尤其对小修改的局部错误有明显的改善。
Jul, 2017