对世界语的语频和错误修正的分析
本文介绍了一个 Czech 语法纠错的新数据集 AKCES-GEC。我们证明使用合成平行语料库结合 Transformer 神经机器翻译模型可在 Czech,German 和 Russian 等多种语言的数据集上达到新的最高水平。AKCES-GEC 数据集已发表在 CC BY-NC-SA 4.0 许可下,GEC 模型源代码也可访问。
Oct, 2019
本文研究了在多种语言环境下,使用 GPT-3.5 进行语法错误纠正(GEC)的应用,包括零样本 GEC,针对 GEC 的微调,以及使用 GPT-3.5 对其他 GEC 模型生成的纠正假设进行重新排序。
May, 2024
对瑞典学生文本进行全面评估,发现在少样本环境下,GPT-3 明显优于之前瑞典语语法错误修正系统,同时发现当前评估方法存在不可取的偏见,建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量,并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。
Aug, 2023
本文提出了一种简单的方法来训练最先进的多语言语法纠错模型,使用大规模多语言语言模型来优化,建立并发布了基线数据集 cLang-8,通过单步微调得出了英语的精确度提高。
Jun, 2021
研究 GPT-3.5 和 GPT-4 等大型语言模型在巴西葡萄牙语中作为语法错误纠正工具的有效性和性能,并将其与 Microsoft Word 和 Google Docs 进行比较。
Jun, 2023
本文提出了一种基于 BERT 的无监督语法错误校正框架,该框架将语法错误校正视为多类别分类任务,涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块,并提出了一种新的伪困境评分方法来评估句子的可信度,并构建了 Tagalog 语料库进行研究,其表现竞争性较强,证明了该框架对于低资源语法错误校正任务很有用处。
Mar, 2023
本文介绍了一个众多且多元的捷克语语料库,标注有语法错误纠正 (GEC) ,目的是为语法错误纠正领域贡献其他语言的稀缺数据资源。该语法错误纠正捷克语语料库 (GECCC) 提供了四个领域的各种文本,覆盖了从非英语母语写的高错误密度论文到期望错误较少的网站文本的错误分布。我们比较了几个捷克 GEC 系统,包括几个基于转换的系统,并为未来的研究设定了一个强有力的基准线。最后,我们把 GEC 公共的评价指标用人工判断与我们的数据相比较。我们在此 http URL 下公开了新的 Czech GEC 语料库,并遵守了 CC BY-SA 4.0 的许可协议。
Jan, 2022
本文通过实验分析 GPT-3 文本模型在语法纠错任务(GEC)上的性能,比较了不同提示方式下的表现,使用自动度量和人为评估的结合揭示了人类评估者与基于参考的自动度量之间的有趣差异。
Mar, 2023
本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集,并使用迭代解码策略训练了神经语法纠错模型,最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。
Apr, 2019
GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.
May, 2020