基于类型的多次交互纠正方法用于语法错误校正
本研究提出了 MainGEC 方法,通过利用数据标注的准确性和潜在注释的多样性的内在差异设计了基于令牌级和句子级训练权重,并进行了混合粒度加权训练以改善 GEC 的训练效果。经验证实,MainGEC 在两个基准数据集上以 Seq2Seq 或 Seq2Edit 方式表现出一致且显著的性能提升,证明了混合粒度加权训练的有效性和优越性。进一步的消融实验验证了 MainGEC 中设计的两个粒度权重的有效性。
Nov, 2023
GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.
May, 2020
本研究介绍一种名为 DeCoGLM 的综合检测和纠错结构,通过使用 General Language Model (GLM) 为基础,提供了在单个模型中进行多任务学习的方法,并表明该结构在大型语言模型中的有效性,为语法纠错提供了一个有前途的方向。
May, 2024
本研究提出了自动检测系统强度或多个系统组合的方法,在所有测试配置中一致优于最佳独立系统,并对 BERT 的应用进行了分析,同时呈现了对本任务创建的拼写检查器的实验结果。
Jun, 2019
本文提出了一种简单的方法来训练最先进的多语言语法纠错模型,使用大规模多语言语言模型来优化,建立并发布了基线数据集 cLang-8,通过单步微调得出了英语的精确度提高。
Jun, 2021
本研究提出了一种 GAN 类似的序列标注模型,采用 Gumbel-Softmax 采样和真实的错误分布来进行语法纠错,以解决传统模型训练与推理不匹配的问题,实验结果表明该方法有效,并改进了之前的最先进基准。
May, 2021
本研究探索了语法纠错模型的泛化能力,通过合成和真实的数据集来评估其泛化性,结果发现目前标准的 Transformer-based GEC 模型在有限的词汇和语法环境下仍无法实现语法归纳。
Jun, 2021
本文报道了使用两个基于 Transformer 的预训练序列到序列模型进行多类阿拉伯语语法错误检测的结果,研究表明,使用语法错误信息作为辅助输入可以提高语法纠错性能;此外,研究还探讨了上下文形态预处理在辅助语法纠错系统方面的应用,并在两个阿拉伯语 GEC 共享任务数据集上取得了最先进的结果。
May, 2023
本文提出了一种基于 BERT 的无监督语法错误校正框架,该框架将语法错误校正视为多类别分类任务,涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块,并提出了一种新的伪困境评分方法来评估句子的可信度,并构建了 Tagalog 语料库进行研究,其表现竞争性较强,证明了该框架对于低资源语法错误校正任务很有用处。
Mar, 2023
本文提出了一种利用 SMT 方法生成的 n 种翻译假设来提高 GEC 准确率的新方法,即利用分类器评分来选择适当的编辑或对 n 种翻译假设进行重新排序,并将这些方法应用于使用 SMT 方法的最新 GEC 系统中,实验结果表明,我们的方法在 GEC 基准测试数据集上的准确性比已发表的最佳结果有显着提高。
Jun, 2016