低资源场景下的语法错误修正
本文介绍了一个众多且多元的捷克语语料库,标注有语法错误纠正 (GEC) ,目的是为语法错误纠正领域贡献其他语言的稀缺数据资源。该语法错误纠正捷克语语料库 (GECCC) 提供了四个领域的各种文本,覆盖了从非英语母语写的高错误密度论文到期望错误较少的网站文本的错误分布。我们比较了几个捷克 GEC 系统,包括几个基于转换的系统,并为未来的研究设定了一个强有力的基准线。最后,我们把 GEC 公共的评价指标用人工判断与我们的数据相比较。我们在此 http URL 下公开了新的 Czech GEC 语料库,并遵守了 CC BY-SA 4.0 的许可协议。
Jan, 2022
本文提出了一种简单的方法来训练最先进的多语言语法纠错模型,使用大规模多语言语言模型来优化,建立并发布了基线数据集 cLang-8,通过单步微调得出了英语的精确度提高。
Jun, 2021
本文提出了一种基于 BERT 的无监督语法错误校正框架,该框架将语法错误校正视为多类别分类任务,涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块,并提出了一种新的伪困境评分方法来评估句子的可信度,并构建了 Tagalog 语料库进行研究,其表现竞争性较强,证明了该框架对于低资源语法错误校正任务很有用处。
Mar, 2023
本研究收集了 Kor-Lang8、Kor-Native 和 Kor-Learner 三个数据集,并使用新提出的 Korean Automatic Grammatical error Annotation System (KAGAS) 工具进行注释以覆盖更多语言错误类型,同时提供基于数据集调整的基线模型,并在各类错误类型上显著优于公共统计 GEC 系统 (Hanspell),展示了数据集的多样性和实用性。
Oct, 2022
在此综述文章中,我们介绍了在自然语言处理领域中的语法错误纠正任务,其中包括越来越流行的神经机器翻译系统,同时概述了任务中的语言学挑战以及常用的数据集和评价方法。我们还介绍了人类主观判断相关的可靠度指标,并总结了近年来的发展以及未来工作和仍面临的挑战,希望本综述能为新手或关注近期发展的研究人员提供全面的资源。
Nov, 2022
本文通过对 Eo-GP 数据集的综合频率分析,以及从真实用户案例中获取的 Eo-GEC 数据集,介绍了利用 GPT-3.5 和 GPT-4 模型改进 Esperanto 语法纠错策略的实验结果,证明了 GPT-4 在自动化和人工评估中的优越性,凸显了先进语言模型在改善对低资源语言的语法问题上的潜力。
Feb, 2024
本文报道了使用两个基于 Transformer 的预训练序列到序列模型进行多类阿拉伯语语法错误检测的结果,研究表明,使用语法错误信息作为辅助输入可以提高语法纠错性能;此外,研究还探讨了上下文形态预处理在辅助语法纠错系统方面的应用,并在两个阿拉伯语 GEC 共享任务数据集上取得了最先进的结果。
May, 2023
对瑞典学生文本进行全面评估,发现在少样本环境下,GPT-3 明显优于之前瑞典语语法错误修正系统,同时发现当前评估方法存在不可取的偏见,建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量,并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。
Aug, 2023
本文提出了一种通用且与语言无关的多语言语法纠错方法,通过预训练的跨语言语言模型和英语与目标语言之间的平行翻译数据,构建了多样化的平行语法纠错数据,并利用该数据训练语法纠错模型,在不同语言的三个基准测试中取得了最先进的结果。
Jan, 2022
为了克服对大多数语言缺乏大量平行标注数据的问题,本研究介绍了一种灵活可扩展的合成数据生成流程,应用于土耳其语。通过复杂的转换函数,实现了 20 多个专业编辑语法和拼写规则的生成,从而得到了 13 万句高质量平行句子。使用神经机器翻译、序列标注和前缀调参等三种基线模型,取得了良好的结果,并对领域外数据集进行了详尽实验,获得有关所提方法的可迁移性和鲁棒性的深入见解。通过发布数据集、基线模型和合成数据生成流程,我们鼓励进一步研究土耳其语错误检测和纠正。
Sep, 2023