走向立陶宛语法错误修正
本文提出一种基于语言模型的解决非母语俄语写作错误的管道,该模型在未标注的俄罗斯国家语料库报纸子语料库的文本上进行训练,并在 RULEC-GEC 语料库上验证模型性能。
Jul, 2023
本研究使用新开发的通用 ByT5 字节级 seq2seq transformer 模型,同时解决语言中的变音符号恢复和拼写错误的问题,在 13 种语言中展现强大的表现,相较于传统的拼写检查或基于词典的方法表现更佳。
Jan, 2022
这项研究旨在分析在文本文件中出现的各种错误,并利用两种先进的深度神经网络语言模型 (BART 和 MarianMT) 纠正文本中存在的异常。通过可用的数据集进行这些模型的迁移学习,以调整其错误纠正能力。通过比较研究发现,虽然这两种模型都可以将错误句子减少 20+%,但 BART 在拼写错误 (24.6%) 方面表现得更好,而在语法错误 (8.8%) 方面表现较差。
Mar, 2024
该研究项目旨在为爱沙尼亚语开发拼写和语法纠错工具,主要挑战是缺乏可用的纠错数据。通过注释更多的纠错数据、转移学习和与其他方法和模型进行比较,我们开发的方法和模型在纠错效果上超过了 GPT4,并提出了使用开源解决方案实现 GPT4 和其他主要语言模型的想法。
Feb, 2024
本文介绍了一个 Czech 语法纠错的新数据集 AKCES-GEC。我们证明使用合成平行语料库结合 Transformer 神经机器翻译模型可在 Czech,German 和 Russian 等多种语言的数据集上达到新的最高水平。AKCES-GEC 数据集已发表在 CC BY-NC-SA 4.0 许可下,GEC 模型源代码也可访问。
Oct, 2019
本文讨论了使用不同子词单元和字节级编码方法对语法错误校正任务进行序列到序列学习的影响。使用含错误生成管道的合成数据和手动更正的真实数据对不同模型进行训练和微调,证明了字节级编码方法不仅可以更好地纠正简单的拼写错误,还可以在语义、风格和语法等方面更好地进行纠错,尤其适用于富有形态学特征的语言。
May, 2023
本文介绍了一种用于纠正语法错误的低资源序列到序列任务方法,首先使用现实的噪声函数生成大型未注释语料库的错误版本,然后利用这些并行语料库进行 Transformer 模型的预训练,并通过顺序迁移学习将这些模型适应于测试集的领域和风格。同时结合上下文感知的神经拼写检查器,我们的系统在 ACL 2019 BEA 共享任务中取得了竞争力的结果。我们公开代码与材料以便复现。
Jul, 2019
通过训练小规模的基于词的 Transformer 语言模型,提取语料库中的概率性错误规则,结合语言模型和错误模型,通过嘈杂信道框架开发拼写校正模型,实验验证了该方法在尼泊尔语中的有效性。
Apr, 2024
本文研究如何通过有限的人工标注数据,使用基于注意力机制的序列到序列模型及简单的后处理程序、进行人工数据合成,以提高文本纠错的准确率。实验结果表明,我们的方法可生成质量较高的人工数据集,有效地提高了基于双向 LSTM 的文本纠错方法的性能水平。
Sep, 2018