走向立陶宛语法错误修正

Mar, 2022

Towards Lithuanian grammatical error correction

Lukas Stankevičius, Mantas Lukoševičius

TL;DR本研究使用 transformer 架构构建一个适用于具有古老特征的立陶宛语的语法错误纠正模型，并比较了子词和字节级方法，公开了 F$_{0.5}$=0.92 的最佳模型及其代码。

Abstract

Everyone wants to write beautiful and correct text, yet the lack of language skills, experience, or hasty typing can result in errors. By employing the recent advances in transformer architectures, we construct a grammatical error correction model for →

transformer architectures grammatical error correction lithuanian subword byte-level approaches

发现论文，激发创造

L2 俄语语法错误修正的语言模型

本文提出一种基于语言模型的解决非母语俄语写作错误的管道，该模型在未标注的俄罗斯国家语料库报纸子语料库的文本上进行训练，并在 RULEC-GEC 语料库上验证模型性能。

Jul, 2023

使用 ByT5 转换器模型纠正变音符号和错别字

本研究使用新开发的通用 ByT5 字节级 seq2seq transformer 模型，同时解决语言中的变音符号恢复和拼写错误的问题，在 13 种语言中展现强大的表现，相较于传统的拼写检查或基于词典的方法表现更佳。

Jan, 2022

语法与拼写错误校正：基于 BART 和 MarianMT 的 Transformer 语言模型响应性调查

这项研究旨在分析在文本文件中出现的各种错误，并利用两种先进的深度神经网络语言模型 (BART 和 MarianMT) 纠正文本中存在的异常。通过可用的数据集进行这些模型的迁移学习，以调整其错误纠正能力。通过比较研究发现，虽然这两种模型都可以将错误句子减少 20+%，但 BART 在拼写错误 (24.6%) 方面表现得更好，而在语法错误 (8.8%) 方面表现较差。

Mar, 2024

爱沙尼亚文本的自动修正：项目 EKTB25 的最终报告

该研究项目旨在为爱沙尼亚语开发拼写和语法纠错工具，主要挑战是缺乏可用的纠错数据。通过注释更多的纠错数据、转移学习和与其他方法和模型进行比较，我们开发的方法和模型在纠错效果上超过了 GPT4，并提出了使用开源解决方案实现 GPT4 和其他主要语言模型的想法。

Feb, 2024

使用 T5 变压器模型进行孟加拉语语法错误检测

使用 T5 语言模型检测孟加拉语中的语法错误，经过 fine-tune 后在测试集上表现良好，仍需后处理以获得最佳性能。

Mar, 2023

低资源场景下的语法错误修正

本文介绍了一个 Czech 语法纠错的新数据集 AKCES-GEC。我们证明使用合成平行语料库结合 Transformer 神经机器翻译模型可在 Czech，German 和 Russian 等多种语言的数据集上达到新的最高水平。AKCES-GEC 数据集已发表在 CC BY-NC-SA 4.0 许可下，GEC 模型源代码也可访问。

Oct, 2019

使用合成和精选语料库进行字节级语法错误校正

本文讨论了使用不同子词单元和字节级编码方法对语法错误校正任务进行序列到序列学习的影响。使用含错误生成管道的合成数据和手动更正的真实数据对不同模型进行训练和微调，证明了字节级编码方法不仅可以更好地纠正简单的拼写错误，还可以在语义、风格和语法等方面更好地进行纠错，尤其适用于富有形态学特征的语言。

May, 2023

基于更好的预训练和顺序迁移学习构建的神经语法错误纠正系统

本文介绍了一种用于纠正语法错误的低资源序列到序列任务方法，首先使用现实的噪声函数生成大型未注释语料库的错误版本，然后利用这些并行语料库进行 Transformer 模型的预训练，并通过顺序迁移学习将这些模型适应于测试集的领域和风格。同时结合上下文感知的神经拼写检查器，我们的系统在 ACL 2019 BEA 共享任务中取得了竞争力的结果。我们公开代码与材料以便复现。

Jul, 2019

低资源环境下基于语言模型的上下文拼写纠错

通过训练小规模的基于词的 Transformer 语言模型，提取语料库中的概率性错误规则，结合语言模型和错误模型，通过嘈杂信道框架开发拼写校正模型，实验验证了该方法在尼泊尔语中的有效性。

Apr, 2024

纠错与提升：生成更好的错误以提高语法错误检测

本文研究如何通过有限的人工标注数据，使用基于注意力机制的序列到序列模型及简单的后处理程序、进行人工数据合成，以提高文本纠错的准确率。实验结果表明，我们的方法可生成质量较高的人工数据集，有效地提高了基于双向 LSTM 的文本纠错方法的性能水平。

Sep, 2018