基于有限状态转换器的神经语法错误纠正
该论文提出了一套适用于大多数语法错误修正(GEC)环境的模型无关方法,包括添加源端噪音,领域自适应技术,GEC 特定训练目标,单语数据的迁移学习以及集成独立训练的 GEC 模型和语言模型。这些方法的综合效果导致比现有最优神经 GEC 模型更好的表现,表现优于 CoNLL-2014 基准测试中以前最好的神经 GEC 系统超过 10%M2,以及 JFLEG 测试集中的 5.9%。
Apr, 2018
本文介绍了使用神经网络全局词汇模型和神经网络联合模型来改善基于短语的统计机器翻译系统的局限性,通过对源句子的环境信息进行更有效地利用,显著提高了语法错误纠正的准确性。
Jun, 2016
本文将基于统计机器翻译和神经机器翻译的自动语法纠错方法相结合,形成一种新的系统,这个混合系统在 CoNLL-2014 和 JFLEG 基准测试上取得了最新的最佳结果。我们的分析显示,所创建的系统比迄今为止报告的任何其他 GEC 系统更接近达到人类水平的性能。
Apr, 2018
GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.
May, 2020
本文提出了一种利用 SMT 方法生成的 n 种翻译假设来提高 GEC 准确率的新方法,即利用分类器评分来选择适当的编辑或对 n 种翻译假设进行重新排序,并将这些方法应用于使用 SMT 方法的最新 GEC 系统中,实验结果表明,我们的方法在 GEC 基准测试数据集上的准确性比已发表的最佳结果有显着提高。
Jun, 2016
本文提出了一种基于 BERT 的无监督语法错误校正框架,该框架将语法错误校正视为多类别分类任务,涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块,并提出了一种新的伪困境评分方法来评估句子的可信度,并构建了 Tagalog 语料库进行研究,其表现竞争性较强,证明了该框架对于低资源语法错误校正任务很有用处。
Mar, 2023
本研究提出了一种 GAN 类似的序列标注模型,采用 Gumbel-Softmax 采样和真实的错误分布来进行语法纠错,以解决传统模型训练与推理不匹配的问题,实验结果表明该方法有效,并改进了之前的最先进基准。
May, 2021
通过基于嵌套注意力层的混合神经模型,将神经机器翻译方法发展应用于语法纠错,实验证明该模型对单词或字符水平上的错误检测和修复均具有良好的效果,并在 CoNLL-14 基准测试数据集上明显优于以往的神经模型,尤其对小修改的局部错误有明显的改善。
Jul, 2017
在此综述文章中,我们介绍了在自然语言处理领域中的语法错误纠正任务,其中包括越来越流行的神经机器翻译系统,同时概述了任务中的语言学挑战以及常用的数据集和评价方法。我们还介绍了人类主观判断相关的可靠度指标,并总结了近年来的发展以及未来工作和仍面临的挑战,希望本综述能为新手或关注近期发展的研究人员提供全面的资源。
Nov, 2022
本文提出了一种简单的方法来训练最先进的多语言语法纠错模型,使用大规模多语言语言模型来优化,建立并发布了基线数据集 cLang-8,通过单步微调得出了英语的精确度提高。
Jun, 2021