语法错误校正的扩展序列标记词汇表
该研究提出了一种用于汉语语法错误纠正任务的神经网络模型,包含拼写错误纠正和语法错误纠正两个步骤,并使用词性特征和语义类别特征进行增强以提高模型性能。最终模型在没有使用人工合成数据或数据增强方法的情况下在 CGEC 数据集上取得了 42.11 F0.5 得分,并且在捕捉不同词性词汇和传达合理词性转换规则方面表现突出。
Nov, 2022
本研究提出了自动检测系统强度或多个系统组合的方法,在所有测试配置中一致优于最佳独立系统,并对 BERT 的应用进行了分析,同时呈现了对本任务创建的拼写检查器的实验结果。
Jun, 2019
在此综述文章中,我们介绍了在自然语言处理领域中的语法错误纠正任务,其中包括越来越流行的神经机器翻译系统,同时概述了任务中的语言学挑战以及常用的数据集和评价方法。我们还介绍了人类主观判断相关的可靠度指标,并总结了近年来的发展以及未来工作和仍面临的挑战,希望本综述能为新手或关注近期发展的研究人员提供全面的资源。
Nov, 2022
本文提出了一种新颖的面向语言无关的语法错误修正方法,将任务分为两个子任务:错误跨度检测(Erroneous Span Detection, ESD) 和错误跨度修正(Erroneous Span Correction, ESC),ESD 使用高效的序列标注模型识别具有语法错误的文本跨度,而 ESC 则使用序列到序列模型,接受标注错误跨度的句子作为输入,并仅输出这些跨度的纠正文本。实验结果表明,我们的方法在英文和汉语 GEC 基准测试中的表现与传统的 seq2seq 方法相当,但推断时间成本不到 50%。
Oct, 2020
本文介绍了一种使用 Transformer 编码器的简单高效的 GEC 序列标记工具,该系统采用合成数据进行预训练,并在连续两个阶段上进行微调,第一阶段在有错误的语料库上,第二阶段在有错误和无错误的平行语料库上。使用自定义的 token-level 变换将输入 token 映射到目标纠正 。我们的最佳单模型 / 集合 GEC 标记器在 CoNLL-2014(测试)上的 $F_{0.5}$ 为 65.3 / 66.5,在 BEA-2019(测试)上为 $F_{0.5}$ 的 72.4 / 73.6。其推理速度比基于 Transformer 的 seq2seq GEC 系统快 10 倍。代码和训练模型公开可用。
May, 2020
该研究提出了一种名为 SynGEC 的句法增强语法纠错方法,它有效地将依赖句法信息纳入 GEC 模型的编码器部分,其中重点挑战是在处理不合语法的句子时,标准分析器是不可靠的。为了克服这一挑战,我们提出使用并行 GEC 训练数据作为枢轴构建定制的 GEC 定向解析器 (GOPar),并采用图卷积网络来编码 GOPar 产生的源侧句法信息,将它们与转换器编码器的输出融合,在英汉 GEC 数据集上的实验表明,我们提出的 SynGEC 方法一致且大幅优于强大的基准,并取得了有竞争力的性能
Oct, 2022
通过基于嵌套注意力层的混合神经模型,将神经机器翻译方法发展应用于语法纠错,实验证明该模型对单词或字符水平上的错误检测和修复均具有良好的效果,并在 CoNLL-14 基准测试数据集上明显优于以往的神经模型,尤其对小修改的局部错误有明显的改善。
Jul, 2017
本文提出了一种利用 SMT 方法生成的 n 种翻译假设来提高 GEC 准确率的新方法,即利用分类器评分来选择适当的编辑或对 n 种翻译假设进行重新排序,并将这些方法应用于使用 SMT 方法的最新 GEC 系统中,实验结果表明,我们的方法在 GEC 基准测试数据集上的准确性比已发表的最佳结果有显着提高。
Jun, 2016
本文报道了使用两个基于 Transformer 的预训练序列到序列模型进行多类阿拉伯语语法错误检测的结果,研究表明,使用语法错误信息作为辅助输入可以提高语法纠错性能;此外,研究还探讨了上下文形态预处理在辅助语法纠错系统方面的应用,并在两个阿拉伯语 GEC 共享任务数据集上取得了最先进的结果。
May, 2023
本文讨论了使用不同子词单元和字节级编码方法对语法错误校正任务进行序列到序列学习的影响。使用含错误生成管道的合成数据和手动更正的真实数据对不同模型进行训练和微调,证明了字节级编码方法不仅可以更好地纠正简单的拼写错误,还可以在语义、风格和语法等方面更好地进行纠错,尤其适用于富有形态学特征的语言。
May, 2023