利用去噪抽象意义表示进行语法错误纠正
本文提出了一种基于 BERT 的无监督语法错误校正框架,该框架将语法错误校正视为多类别分类任务,涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块,并提出了一种新的伪困境评分方法来评估句子的可信度,并构建了 Tagalog 语料库进行研究,其表现竞争性较强,证明了该框架对于低资源语法错误校正任务很有用处。
Mar, 2023
GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.
May, 2020
本文报道了使用两个基于 Transformer 的预训练序列到序列模型进行多类阿拉伯语语法错误检测的结果,研究表明,使用语法错误信息作为辅助输入可以提高语法纠错性能;此外,研究还探讨了上下文形态预处理在辅助语法纠错系统方面的应用,并在两个阿拉伯语 GEC 共享任务数据集上取得了最先进的结果。
May, 2023
我们提出了一种新的非自回归方法来解决语法错误纠正的问题,该方法使用置换网络和基于逐步展开去噪自编码器的解码网络,通过一次前向传递找到最佳输入序列的排列,避免了自回归方法的构建,实验结果表明我们的网络比以前所知的非自回归方法有更好的效果,并达到了不使用特定语言合成数据方法的自回归方法的水平。
Nov, 2023
本研究提出了一种 GAN 类似的序列标注模型,采用 Gumbel-Softmax 采样和真实的错误分布来进行语法纠错,以解决传统模型训练与推理不匹配的问题,实验结果表明该方法有效,并改进了之前的最先进基准。
May, 2021
介绍了一种基于语言模型和有限状态转换器的语法错误更正方法,与神经序列模型和基于短语的机器翻译相比具有更好的效果,同时无需大量的标注数据,并且在拥有标注数据的情况下,该方法也适用于基于短语的机器翻译。
Mar, 2019
本研究提出了 MainGEC 方法,通过利用数据标注的准确性和潜在注释的多样性的内在差异设计了基于令牌级和句子级训练权重,并进行了混合粒度加权训练以改善 GEC 的训练效果。经验证实,MainGEC 在两个基准数据集上以 Seq2Seq 或 Seq2Edit 方式表现出一致且显著的性能提升,证明了混合粒度加权训练的有效性和优越性。进一步的消融实验验证了 MainGEC 中设计的两个粒度权重的有效性。
Nov, 2023
利用大量弱监督的双语数据,训练 Transformer 序列到序列模型,并采用迭代解码策略来进行语法错误纠正,最终在 CoNLL'14 基准测试上获得 F0.5 为 58.3,在 JFLEG 上获得 GLEU 为 62.4,即使不使用任何有标记的 GEC 数据,在 CoNLL'14 上的 F0.5 也能达到 48.2。
Oct, 2018
本文提出了自我精炼的方法,利用现有模型的预测一致性去除 Grammatical Error Correction(GEC)数据集中的噪声,实现了优于传统基线的去噪效果,并在任务特定技术的帮助下,在 CoNLL-2014、JFLEG 和 BEA-2019 基准测试中实现了最先进的性能。
Oct, 2020
该研究提出了一种使用神经编码器 - 解码器模型和强化学习来进行语法错误校正的方法,并探讨了相较于传统的最大似然估计方法的优越性。研究表明,该方法在人工和自动评估指标上的表现都优于最大似然估计,达到了流畅度优化的语法错误校正数据集上的最先进的水平。
Jul, 2017