大规模合成数据在语法错误校正中的评估
本文介绍一种基于学习的两阶段方法用于生成语法纠错中的合成数据,以缓解数据稀缺问题并提高性能。经过实验证明,我们所提出的方法训练出的模型优于其他先前工作中仅包含一个错误的句子合成数据所训练出的模型。
Aug, 2022
提出两种数据合成方法来解决语法错误纠正任务中缺乏平行数据的问题,并对不同数据进行实验,结果表明错误率为 40%,错误类型的比例相同可以更好地提高模型性能。最终,合成约 1 亿数据,实现了与使用两倍数据的最新技术相当的性能。
Sep, 2019
为了克服对大多数语言缺乏大量平行标注数据的问题,本研究介绍了一种灵活可扩展的合成数据生成流程,应用于土耳其语。通过复杂的转换函数,实现了 20 多个专业编辑语法和拼写规则的生成,从而得到了 13 万句高质量平行句子。使用神经机器翻译、序列标注和前缀调参等三种基线模型,取得了良好的结果,并对领域外数据集进行了详尽实验,获得有关所提方法的可迁移性和鲁棒性的深入见解。通过发布数据集、基线模型和合成数据生成流程,我们鼓励进一步研究土耳其语错误检测和纠正。
Sep, 2023
本研究使用自动注释工具 ERRANT 的错误类型标签指导合成数据生成,并比较了多种模型以研究如何基于错误类型标签从正确的句子生成不合语法的句子。在此基础上,构建一个规模较大的合成数据集,其错误标签的频率分布与给定开发集相匹配。该合成数据集具有较好的性能表现,可以显著提高 BEA-19 和 CoNLL14 测试集的性能,并且可以有效地适应 GEC 系统,特别是对于混合本地和非本地语言的英语人群,其效果优于由高质量句对组成的真实训练数据。
May, 2021
本文提出了 SEEDA,这是一个用于语法错误修正的新数据集,包含了 12 个最先进的系统和两个不同焦点的人工纠错评估,通过在句子级别元评估中对齐粒度来改进相关性,并指出传统度量在评估具有多个编辑的流畅修正句子方面相对较差。
Mar, 2024
提出一种基于上下文增强的合成数据构建方法,用于语法错误校正,在生成模型的基础上结合基于规则的替换,以增加原始数据的错误分布一致性,并提出一种基于重标记的数据清洗方法来减小合成数据中噪声标签的影响。实验证明,该增强方法在有限的合成数据下始终优于强基线方法,并达到了最先进水平。
Jun, 2024
通过生成伪数据进行数据增强已被证明在语法错误修正(GEC)领域中缓解数据稀缺性的挑战中有效。本文引入了可解释且计算高效的两个度量:亲和性和多样性,研究发现高亲和性且适当多样性的优秀 GEC 数据增强策略可以更好地提高 GEC 模型的性能,并提出了一种名为 MixEdit 的数据增强方法,通过策略性和动态地增加真实数据而不需要额外的单语语料库。在英文和中文 GEC 数据集上的实验证实了我们发现的正确性和 MixEdit 的有效性,结果表明 MixEdit 显著提高 GEC 模型性能并且与传统数据增强方法互补。
Oct, 2023
对瑞典学生文本进行全面评估,发现在少样本环境下,GPT-3 明显优于之前瑞典语语法错误修正系统,同时发现当前评估方法存在不可取的偏见,建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量,并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。
Aug, 2023
本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集,并使用迭代解码策略训练了神经语法纠错模型,最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。
Apr, 2019