CGELBank:作为英语句法注释框架的 CGEL
TLE 是第一个提供公开的英语为第二语言的句法树库,它为来自剑桥英语第一证书(FCE)语料库的 5,124 个句子提供了手动注释的 POS 标签和通用依赖(UD)树。该树库可用于支持广泛的第二语言习得领域和自动处理不流畅语言的计算机研究。
May, 2016
我们探索和改进 LLM 的能力,以生成语法错误纠正(GEC)的数据,提出了一个自动化框架,并引入了一个名为 ChatLang-8 的新数据集,该数据集包含八种主题名词和 23 种语法类型,实验结果表明我们的框架和 ChatLang-8 对于提高 ChatGPT 的数据生成能力具有价值。
Jun, 2024
本文提出了一种基于语言规则的方法来构建自动生成语法错误的大规模中文语法错误纠正训练语料库,并提出了一个挑战性的中文语法错误纠正基准,旨在解决当前缺乏高质量标注的训练语料库和测试集不是由中文母语人士制作的问题。实验结果表明,我们提出的训练数据构建方法有效地提高了中文语法错误纠正模型的性能,并且我们的基准是进一步发展中文语法错误纠正领域的绝佳资源。
Oct, 2022
本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集,并使用迭代解码策略训练了神经语法纠错模型,最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。
Apr, 2019
介绍一种新的中文语法错误修正数据集(FlaCGEC),该数据集具有细粒度的语言注释,并评估了各种先进的 CGEC 方法在该数据集上的表现,结果显示该数据集具有挑战性,能够涵盖广泛的语法错误,并将其作为诊断数据集进行了评估现有的 CGEC 模型。
Sep, 2023
为了克服对大多数语言缺乏大量平行标注数据的问题,本研究介绍了一种灵活可扩展的合成数据生成流程,应用于土耳其语。通过复杂的转换函数,实现了 20 多个专业编辑语法和拼写规则的生成,从而得到了 13 万句高质量平行句子。使用神经机器翻译、序列标注和前缀调参等三种基线模型,取得了良好的结果,并对领域外数据集进行了详尽实验,获得有关所提方法的可迁移性和鲁棒性的深入见解。通过发布数据集、基线模型和合成数据生成流程,我们鼓励进一步研究土耳其语错误检测和纠正。
Sep, 2023
我们介绍了逻辑语法嵌入(LGE),这是一种受到预群组语法和范畴语法启发的模型,可从文本语料库中无监督推断词汇类别和句法规则。LGE 产生易懂的输出来总结其推断,具有完全透明的生成新句子的过程,并且可以从少至一百个句子中学习。
Apr, 2023