对世界语的语频和错误修正的分析

Feb, 2024

对世界语的语频和错误修正的分析

An Analysis of Langauge Frequency and Error Correction for Esperanto

Junhong Liang

TL;DR本文通过对 Eo-GP 数据集的综合频率分析，以及从真实用户案例中获取的 Eo-GEC 数据集，介绍了利用 GPT-3.5 和 GPT-4 模型改进 Esperanto 语法纠错策略的实验结果，证明了 GPT-4 在自动化和人工评估中的优越性，凸显了先进语言模型在改善对低资源语言的语法问题上的潜力。

Abstract

Current grammar error correction (GEC) initiatives tend to focus on major languages, with less attention given to low-resource languages like esp

grammar error correction low-resource languages esperanto eo-gp dataset gpt-4

发现论文，激发创造

低资源场景下的语法错误修正

本文介绍了一个 Czech 语法纠错的新数据集 AKCES-GEC。我们证明使用合成平行语料库结合 Transformer 神经机器翻译模型可在 Czech，German 和 Russian 等多种语言的数据集上达到新的最高水平。AKCES-GEC 数据集已发表在 CC BY-NC-SA 4.0 许可下，GEC 模型源代码也可访问。

Oct, 2019

GPT-3.5 用于语法错误修正

本文研究了在多种语言环境下，使用 GPT-3.5 进行语法错误纠正（GEC）的应用，包括零样本 GEC，针对 GEC 的微调，以及使用 GPT-3.5 对其他 GEC 模型生成的纠正假设进行重新排序。

May, 2024

评估优秀的语法错误修正

对瑞典学生文本进行全面评估，发现在少样本环境下，GPT-3 明显优于之前瑞典语语法错误修正系统，同时发现当前评估方法存在不可取的偏见，建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量，并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。

Aug, 2023

多语言语法错误修正的简单配方

本文提出了一种简单的方法来训练最先进的多语言语法纠错模型，使用大规模多语言语言模型来优化，建立并发布了基线数据集 cLang-8，通过单步微调得出了英语的精确度提高。

Jun, 2021

对 GPT-3.5 和 GPT-4 在巴西葡萄牙语语法纠错方面的评估

研究 GPT-3.5 和 GPT-4 等大型语言模型在巴西葡萄牙语中作为语法错误纠正工具的有效性和性能，并将其与 Microsoft Word 和 Google Docs 进行比较。

Jun, 2023

一个基于 BERT 的无监督语法错误纠正框架

本文提出了一种基于 BERT 的无监督语法错误校正框架，该框架将语法错误校正视为多类别分类任务，涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块，并提出了一种新的伪困境评分方法来评估句子的可信度，并构建了 Tagalog 语料库进行研究，其表现竞争性较强，证明了该框架对于低资源语法错误校正任务很有用处。

Mar, 2023

利用大规模多样化语料库的捷克文语法错误纠正

本文介绍了一个众多且多元的捷克语语料库，标注有语法错误纠正 (GEC) ，目的是为语法错误纠正领域贡献其他语言的稀缺数据资源。该语法错误纠正捷克语语料库 (GECCC) 提供了四个领域的各种文本，覆盖了从非英语母语写的高错误密度论文到期望错误较少的网站文本的错误分布。我们比较了几个捷克 GEC 系统，包括几个基于转换的系统，并为未来的研究设定了一个强有力的基准线。最后，我们把 GEC 公共的评价指标用人工判断与我们的数据相比较。我们在此 http URL 下公开了新的 Czech GEC 语料库，并遵守了 CC BY-SA 4.0 的许可协议。

Jan, 2022

对 GPT-3 在语法错误修正方面的性能分析

本文通过实验分析 GPT-3 文本模型在语法纠错任务（GEC）上的性能，比较了不同提示方式下的表现，使用自动度量和人为评估的结合揭示了人类评估者与基于参考的自动度量之间的有趣差异。

Mar, 2023

语法错误纠正的语料生成

本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集，并使用迭代解码策略训练了神经语法纠错模型，最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。

Apr, 2019

语法错误修正的综合性调查

GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.

May, 2020