基于有机数据驱动的土耳其语语法错误修正与 LLMs

May, 2024

基于有机数据驱动的土耳其语语法错误修正与 LLMs

Organic Data-Driven Approach for Turkish Grammatical Error Correction and LLMs

Asım Ersoy, Olcay Taner Yıldız

TL;DR使用有机数据驱动的方法，通过插入文本，并通过清理用于进行训练的数据，构建土耳其语语法错误校正数据集，并在两个土耳其语语法错误校正测试集上达到最新的成果，同时证明了该方法在训练语言模型时的有效性。

Abstract

grammatical error correction has seen significant progress with the recent advancements in deep learning. As those methods require huge amounts of data, →

grammatical error correction deep learning synthetic datasets turkish language models

发现论文，激发创造

GECTurk：用于土耳其语的语法错误校正和检测数据集

为了克服对大多数语言缺乏大量平行标注数据的问题，本研究介绍了一种灵活可扩展的合成数据生成流程，应用于土耳其语。通过复杂的转换函数，实现了 20 多个专业编辑语法和拼写规则的生成，从而得到了 13 万句高质量平行句子。使用神经机器翻译、序列标注和前缀调参等三种基线模型，取得了良好的结果，并对领域外数据集进行了详尽实验，获得有关所提方法的可迁移性和鲁棒性的深入见解。通过发布数据集、基线模型和合成数据生成流程，我们鼓励进一步研究土耳其语错误检测和纠正。

Sep, 2023

纠错与提升：生成更好的错误以提高语法错误检测

本文研究如何通过有限的人工标注数据，使用基于注意力机制的序列到序列模型及简单的后处理程序、进行人工数据合成，以提高文本纠错的准确率。实验结果表明，我们的方法可生成质量较高的人工数据集，有效地提高了基于双向 LSTM 的文本纠错方法的性能水平。

Sep, 2018

用于语法错误校正的可控数据合成方法

提出两种数据合成方法来解决语法错误纠正任务中缺乏平行数据的问题，并对不同数据进行实验，结果表明错误率为 40％，错误类型的比例相同可以更好地提高模型性能。最终，合成约 1 亿数据，实现了与使用两倍数据的最新技术相当的性能。

Sep, 2019

使用标记的错误模型生成语法纠错的合成数据

本研究使用自动注释工具 ERRANT 的错误类型标签指导合成数据生成，并比较了多种模型以研究如何基于错误类型标签从正确的句子生成不合语法的句子。在此基础上，构建一个规模较大的合成数据集，其错误标签的频率分布与给定开发集相匹配。该合成数据集具有较好的性能表现，可以显著提高 BEA-19 和 CoNLL14 测试集的性能，并且可以有效地适应 GEC 系统，特别是对于混合本地和非本地语言的英语人群，其效果优于由高质量句对组成的真实训练数据。

May, 2021

生成语法错误校正的人工错误负担

通过人工制造包含错误的句子，使用序列到序列模型来实现逐步的语法错误纠正，并比较其效果与规则化的方法。

Jul, 2019

通过多任务训练和优化训练计划实现高效的语法错误校正

本研究通过使用辅助任务和优化训练顺序，针对神经语法错误校正的问题，提出了一种高效利用数据的方法，利用较小规模的基于 BART 模型（400M 参数）的结果优于基于 T5-XXL 模型（11B 参数）的最佳模型。

Nov, 2023

利用机器翻译和句法模式进行人造错误生成

本研究探讨了两种替代方法：机器翻译和文本模式提取以解决短缺的数据对自动化错误检测的影响。实验表明：人工生成的错误明显提高了对 FCE 和 CoNLL 2014 数据集的错误检测精度。

Jul, 2017

合成孤独：探索用于语法纠错的合成数据的负面影响

本文研究数据质量控制（噪声注入和平衡数据）对基于真实数据和合成数据训练的语法纠错模型的影响，并比较了两种方法的效果，结果表明，与真实数据情况相同，数据质量控制方法对真实数据训练的模型有积极影响，而对合成数据训练的模型影响为负。

Jun, 2023

优化的转录错误修正的分词

本文展示了通过使用合成数据来进行训练，可以显著提高纠错模型的性能，并通过多种语言、语音识别系统和知名语音识别数据集对我们的方法进行评估。

Oct, 2023

利用机器翻译对提高语法错误校正的效果

提出了一种新颖的数据合成方法，以生成多样的句子对，用于改善语法错误纠正，该方法基于两个不同质量（即较差和较好）的机器翻译模型对。实验结果表明，我们的方法是有效的，可以与其他合成数据源相结合，以产生进一步的改进。

Nov, 2019