CGELBank 注释手册 v1.0

May, 2023

CGELBank Annotation Manual v1.0

PDF

Brett Reynolds, Nathan Schneider, Aryaman Arora

TL;DRCGELBank 是基于从《剑桥英语语法》中推导出的一种英语句法形式主义的树库和相关工具，本文概述了 CGELBank 注释方案的特殊性。

Abstract

cgelbank is a treebank and associated tools based on a syntactic formalism for English derived from the →

cgelbank treebank syntactic formalism annotation scheme cambridge grammar

发现论文，激发创造

CGELBank：作为英语句法注释框架的 CGEL

通过 CGELBank 项目，我们将英语语法的剑桥文法形式化引入树库中，探讨了在语料库标注中出现的一些语言分析问题，并与 UD 和 PTB 树库进行了定量和定性比较，我们认为 CGEL 提供了分析的全面性和注释的可用性之间的一个很好的权衡，这促使未来通过自动转换扩展树库。

Oct, 2022

学习者英语的通用依存关系

TLE 是第一个提供公开的英语为第二语言的句法树库，它为来自剑桥英语第一证书（FCE）语料库的 5,124 个句子提供了手动注释的 POS 标签和通用依赖（UD）树。该树库可用于支持广泛的第二语言习得领域和自动处理不流畅语言的计算机研究。

May, 2016

基于语言规则的本地化中文语法纠错语料库生成

本文提出了一种基于语言规则的方法来构建自动生成语法错误的大规模中文语法错误纠正训练语料库，并提出了一个挑战性的中文语法错误纠正基准，旨在解决当前缺乏高质量标注的训练语料库和测试集不是由中文母语人士制作的问题。实验结果表明，我们提出的训练数据构建方法有效地提高了中文语法错误纠正模型的性能，并且我们的基准是进一步发展中文语法错误纠正领域的绝佳资源。

Oct, 2022

平行语义库：向一个带有组合意义表示注释的多语语料库的翻译迈进

Parallel Meaning Bank 是一个包含四种语言 (英语、德语、意大利语和荷兰语) 的 11 百万单词的翻译语料库，词汇对齐的翻译文本上的语义注释基于跨语言映射，采用统计模型进行。语义注释由五个主要步骤组成，包括：句子和词汇项的分割；组合范畴语法的句法分析；通用语义标签；符号化；基于话语表征理论的组成语义分析。这些步骤都是使用半监督训练的统计模型执行的。使用的注释模型都是语言无关的。我们的初步结果很有前途。

Feb, 2017

FlaCGEC：一份带有细粒度语言标注的中文语法错误纠正数据集

介绍一种新的中文语法错误修正数据集（FlaCGEC），该数据集具有细粒度的语言注释，并评估了各种先进的 CGEC 方法在该数据集上的表现，结果显示该数据集具有挑战性，能够涵盖广泛的语法错误，并将其作为诊断数据集进行了评估现有的 CGEC 模型。

Sep, 2023

BoAT v2 -- 一款基于 Web 的依赖注解工具，专注于凝聚类语言

本研究介绍了一种基于 BoAT v1 经验设计与实现的新型依存关系标注工具 BoAT v2，它是一种面向注释者用户体验的多用户、基于 Web 的依存关系标注工具，支持在提高有效标注的速度的同时，显著提高注释者的用户体验，并支持注释者之间的协作。

Jul, 2022

Yahoo 查询树库，V. 1.0

Yahoo Webscope 发布的 Query Treebank 版本 1.0 的描述和注释指南。

May, 2016

语法错误纠正的语料生成

本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集，并使用迭代解码策略训练了神经语法纠错模型，最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。

Apr, 2019

用于解析器评估的语料库标注

通过语料库标注方案与英文文本标注，我们描述了一种避免当前方法的缺点的解析器评估方法，并展示了该语料库如何用于评估健壮的解析器，以及与现有资源的关系。

Jul, 1999

GECTurk：用于土耳其语的语法错误校正和检测数据集

为了克服对大多数语言缺乏大量平行标注数据的问题，本研究介绍了一种灵活可扩展的合成数据生成流程，应用于土耳其语。通过复杂的转换函数，实现了 20 多个专业编辑语法和拼写规则的生成，从而得到了 13 万句高质量平行句子。使用神经机器翻译、序列标注和前缀调参等三种基线模型，取得了良好的结果，并对领域外数据集进行了详尽实验，获得有关所提方法的可迁移性和鲁棒性的深入见解。通过发布数据集、基线模型和合成数据生成流程，我们鼓励进一步研究土耳其语错误检测和纠正。

Sep, 2023