语法错误校正模型能否实现语法概括?
本文主要探讨使用不同的 back-translation 模型为基础生成的 pseudo data 对语法纠错模型的影响和差异,实验结果表明:不同模型生成的数据对不同错误类型的纠错趋势影响不同;而使用不同模型的组合生成的数据能够提高或插值单一模型的 F0.5 得分。
Apr, 2021
本文报道了使用两个基于 Transformer 的预训练序列到序列模型进行多类阿拉伯语语法错误检测的结果,研究表明,使用语法错误信息作为辅助输入可以提高语法纠错性能;此外,研究还探讨了上下文形态预处理在辅助语法纠错系统方面的应用,并在两个阿拉伯语 GEC 共享任务数据集上取得了最先进的结果。
May, 2023
GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.
May, 2020
本文介绍一种基于学习的两阶段方法用于生成语法纠错中的合成数据,以缓解数据稀缺问题并提高性能。经过实验证明,我们所提出的方法训练出的模型优于其他先前工作中仅包含一个错误的句子合成数据所训练出的模型。
Aug, 2022
介绍了一种基于语言模型和有限状态转换器的语法错误更正方法,与神经序列模型和基于短语的机器翻译相比具有更好的效果,同时无需大量的标注数据,并且在拥有标注数据的情况下,该方法也适用于基于短语的机器翻译。
Mar, 2019
本文提出了一种基于 BERT 的无监督语法错误校正框架,该框架将语法错误校正视为多类别分类任务,涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块,并提出了一种新的伪困境评分方法来评估句子的可信度,并构建了 Tagalog 语料库进行研究,其表现竞争性较强,证明了该框架对于低资源语法错误校正任务很有用处。
Mar, 2023
对瑞典学生文本进行全面评估,发现在少样本环境下,GPT-3 明显优于之前瑞典语语法错误修正系统,同时发现当前评估方法存在不可取的偏见,建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量,并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。
Aug, 2023
本研究使用自动注释工具 ERRANT 的错误类型标签指导合成数据生成,并比较了多种模型以研究如何基于错误类型标签从正确的句子生成不合语法的句子。在此基础上,构建一个规模较大的合成数据集,其错误标签的频率分布与给定开发集相匹配。该合成数据集具有较好的性能表现,可以显著提高 BEA-19 和 CoNLL14 测试集的性能,并且可以有效地适应 GEC 系统,特别是对于混合本地和非本地语言的英语人群,其效果优于由高质量句对组成的真实训练数据。
May, 2021
本文提出了一种通用且与语言无关的多语言语法纠错方法,通过预训练的跨语言语言模型和英语与目标语言之间的平行翻译数据,构建了多样化的平行语法纠错数据,并利用该数据训练语法纠错模型,在不同语言的三个基准测试中取得了最先进的结果。
Jan, 2022