CGELBank 注释手册 v1.0
通过 CGELBank 项目,我们将英语语法的剑桥文法形式化引入树库中,探讨了在语料库标注中出现的一些语言分析问题,并与 UD 和 PTB 树库进行了定量和定性比较,我们认为 CGEL 提供了分析的全面性和注释的可用性之间的一个很好的权衡,这促使未来通过自动转换扩展树库。
Oct, 2022
TLE 是第一个提供公开的英语为第二语言的句法树库,它为来自剑桥英语第一证书(FCE)语料库的 5,124 个句子提供了手动注释的 POS 标签和通用依赖(UD)树。该树库可用于支持广泛的第二语言习得领域和自动处理不流畅语言的计算机研究。
May, 2016
本文提出了一种基于语言规则的方法来构建自动生成语法错误的大规模中文语法错误纠正训练语料库,并提出了一个挑战性的中文语法错误纠正基准,旨在解决当前缺乏高质量标注的训练语料库和测试集不是由中文母语人士制作的问题。实验结果表明,我们提出的训练数据构建方法有效地提高了中文语法错误纠正模型的性能,并且我们的基准是进一步发展中文语法错误纠正领域的绝佳资源。
Oct, 2022
Parallel Meaning Bank 是一个包含四种语言 (英语、德语、意大利语和荷兰语) 的 11 百万单词的翻译语料库,词汇对齐的翻译文本上的语义注释基于跨语言映射,采用统计模型进行。语义注释由五个主要步骤组成,包括:句子和词汇项的分割;组合范畴语法的句法分析;通用语义标签;符号化;基于话语表征理论的组成语义分析。这些步骤都是使用半监督训练的统计模型执行的。使用的注释模型都是语言无关的。我们的初步结果很有前途。
Feb, 2017
介绍一种新的中文语法错误修正数据集(FlaCGEC),该数据集具有细粒度的语言注释,并评估了各种先进的 CGEC 方法在该数据集上的表现,结果显示该数据集具有挑战性,能够涵盖广泛的语法错误,并将其作为诊断数据集进行了评估现有的 CGEC 模型。
Sep, 2023
本研究介绍了一种基于 BoAT v1 经验设计与实现的新型依存关系标注工具 BoAT v2,它是一种面向注释者用户体验的多用户、基于 Web 的依存关系标注工具,支持在提高有效标注的速度的同时,显著提高注释者的用户体验,并支持注释者之间的协作。
Jul, 2022
本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集,并使用迭代解码策略训练了神经语法纠错模型,最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。
Apr, 2019
为了克服对大多数语言缺乏大量平行标注数据的问题,本研究介绍了一种灵活可扩展的合成数据生成流程,应用于土耳其语。通过复杂的转换函数,实现了 20 多个专业编辑语法和拼写规则的生成,从而得到了 13 万句高质量平行句子。使用神经机器翻译、序列标注和前缀调参等三种基线模型,取得了良好的结果,并对领域外数据集进行了详尽实验,获得有关所提方法的可迁移性和鲁棒性的深入见解。通过发布数据集、基线模型和合成数据生成流程,我们鼓励进一步研究土耳其语错误检测和纠正。
Sep, 2023