本研究针对日本语言的语法错误校正,通过构建手动评估的数据集,建立了自动评估模型,并进行了元评估以验证该数据集的实用性。
Jan, 2022
对瑞典学生文本进行全面评估,发现在少样本环境下,GPT-3 明显优于之前瑞典语语法错误修正系统,同时发现当前评估方法存在不可取的偏见,建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量,并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。
Aug, 2023
本研究是在少量带注释的句子基础上,通过将通用神经语法纠错系统适应于作者的熟练程度和母语中,在五种熟练程度和十二种不同语言的比较下,发现同时适应两种条件可以最大程度地提高其性能(3.6 F0.5)。
Jun, 2020
本文介绍了 3 种衡量大规模人工错误数据的质量度量标准:可靠性、多样性和分布一致性,并利用这些标准自动评估数据集的质量。同时,这些指标也可以帮助向数据生成系统提供反馈,从而提高动态生成的合成数据的质量。
Oct, 2022
我们提出 GRECO,一种新的最先进的质量估计模型,用于评估纠正后句子的质量,得到与 F0.5 分数更高的更好估计,从而实现更高的 F0.5 分数的综合 GEC 系统。我们还提出了三种利用 GEC 质量估计模型进行系统组合的方法,包括模型无关方法、带有投票偏差的模型无关方法和模型相关方法。综合 GEC 系统在 CoNLL-2014 测试集和 BEA-2019 测试集上表现超过现有最新水平,达到迄今最高的 F0.5 分数。
Oct, 2023
通过研究英语作为第二语言的学习者的表现和语言熟练度之间的相互作用,我们的方法专注于基于不同熟练程度的零样本和少样本提示和微调模型,以提高外语英语学习者的语法错误修正(GEC)效果。我们发现,过度修正主要发生在高级语言学习者(熟练程度 C)的写作中,而不是熟练程度 A(初学者水平)和熟练程度 B(中级水平)。经过微调的 LLMs,甚至少量提示与英语学习者的写作范例,实际上会导致召回率下降。为了证明我们的论断,我们对 GEC 结果及其根据语言熟练度的评估结果进行了全面检查。
Feb, 2024
本文通过实验研究语法错误修正,深入研究单模型系统的细微差别,比较集成和排名方法的效率,并探讨了大型语言模型在作为单模型系统、集成部分和排名方法时在语法错误修正上的应用。我们在 CoNLL-2014-test 和 BEA-test 上分别取得了 F_0.5 分数为 72.8 和 81.4 的最新最佳性能,为 GEC 的进一步发展和我们研究的可重复性提供支持。同时我们公开了我们的代码、训练模型和系统的输出结果,以便进一步推动 GEC 的发展。
Apr, 2024
本研究旨在提高机器翻译句子水平的翻译编辑速率预测,提出了句子水平的质量分类(QC)观点,以优化召回率,并通过二进制分类器的使用可将后编辑工作量减少至 50-60%。
May, 2020
我们研究了句子级机器翻译的质量估计 (QE) 问题,发现传统的基于回归的方法以及基于压缩模型的方法都不能很好地解决实际应用中的问题,而基于分类的方法可以更好地反映他们在实际应用中的性能表现。
Sep, 2021
该研究评估了面向英语非母语学习者写作的语法错误纠正系统(GEC),并发布了一个由具有不同水平的英语使用者生成的网站文本组成的新基准 CWEB,该工作希望能够促进开放域 GEC 模型的发展,以能够概括不同主题和流派。
Oct, 2020