使用迭代解码的弱监督语法错误校正
本文介绍了一种使用 Transformer 编码器的简单高效的 GEC 序列标记工具,该系统采用合成数据进行预训练,并在连续两个阶段上进行微调,第一阶段在有错误的语料库上,第二阶段在有错误和无错误的平行语料库上。使用自定义的 token-level 变换将输入 token 映射到目标纠正 。我们的最佳单模型 / 集合 GEC 标记器在 CoNLL-2014(测试)上的 $F_{0.5}$ 为 65.3 / 66.5,在 BEA-2019(测试)上为 $F_{0.5}$ 的 72.4 / 73.6。其推理速度比基于 Transformer 的 seq2seq GEC 系统快 10 倍。代码和训练模型公开可用。
May, 2020
本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集,并使用迭代解码策略训练了神经语法纠错模型,最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。
Apr, 2019
本文提出了一种基于 BERT 的无监督语法错误校正框架,该框架将语法错误校正视为多类别分类任务,涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块,并提出了一种新的伪困境评分方法来评估句子的可信度,并构建了 Tagalog 语料库进行研究,其表现竞争性较强,证明了该框架对于低资源语法错误校正任务很有用处。
Mar, 2023
本研究提出了一种 GAN 类似的序列标注模型,采用 Gumbel-Softmax 采样和真实的错误分布来进行语法纠错,以解决传统模型训练与推理不匹配的问题,实验结果表明该方法有效,并改进了之前的最先进基准。
May, 2021
本文提出了一种简单的方法来训练最先进的多语言语法纠错模型,使用大规模多语言语言模型来优化,建立并发布了基线数据集 cLang-8,通过单步微调得出了英语的精确度提高。
Jun, 2021
我们提出了一种新的非自回归方法来解决语法错误纠正的问题,该方法使用置换网络和基于逐步展开去噪自编码器的解码网络,通过一次前向传递找到最佳输入序列的排列,避免了自回归方法的构建,实验结果表明我们的网络比以前所知的非自回归方法有更好的效果,并达到了不使用特定语言合成数据方法的自回归方法的水平。
Nov, 2023
介绍了一种基于语言模型和有限状态转换器的语法错误更正方法,与神经序列模型和基于短语的机器翻译相比具有更好的效果,同时无需大量的标注数据,并且在拥有标注数据的情况下,该方法也适用于基于短语的机器翻译。
Mar, 2019
本研究提出了 MainGEC 方法,通过利用数据标注的准确性和潜在注释的多样性的内在差异设计了基于令牌级和句子级训练权重,并进行了混合粒度加权训练以改善 GEC 的训练效果。经验证实,MainGEC 在两个基准数据集上以 Seq2Seq 或 Seq2Edit 方式表现出一致且显著的性能提升,证明了混合粒度加权训练的有效性和优越性。进一步的消融实验验证了 MainGEC 中设计的两个粒度权重的有效性。
Nov, 2023
该论文提出了一种新颖的流利性提升学习和推理机制,结合卷积 seq2seq 模型,成功将神经序列到序列的方法应用于语法错误纠正 (GEC),在 CoNLL-2014 10 注释数据集上获得了 75.72(F_{0.5})的最好表现,在 JFLEG 测试集上获得了 62.42(GLEU))的最好表现,并成为首个在这两项基准测试中都达到人类水平性能(分别为 CoNLL-2014 72.58 和 JFLEG 62.37)的 GEC 系统。
Jul, 2018
本研究提出了自动检测系统强度或多个系统组合的方法,在所有测试配置中一致优于最佳独立系统,并对 BERT 的应用进行了分析,同时呈现了对本任务创建的拼写检查器的实验结果。
Jun, 2019