CGELBank：作为英语句法注释框架的 CGEL

Oct, 2022

CGELBank：作为英语句法注释框架的 CGEL

CGELBank: CGEL as a Framework for English Syntax Annotation

Brett Reynolds, Aryaman Arora, Nathan Schneider

TL;DR通过 CGELBank 项目，我们将英语语法的剑桥文法形式化引入树库中，探讨了在语料库标注中出现的一些语言分析问题，并与 UD 和 PTB 树库进行了定量和定性比较，我们认为 CGEL 提供了分析的全面性和注释的可用性之间的一个很好的权衡，这促使未来通过自动转换扩展树库。

Abstract

We introduce the syntactic formalism of the \textit{Cambridge Grammar of the English Language} (cgel) to the world of treebanking through the CGELBank project. We discuss some issues in →

cambridge grammar of the english language cgel treebanking linguistic analysis corpus annotation

发现论文，激发创造

CGELBank 注释手册 v1.0

CGELBank 是基于从《剑桥英语语法》中推导出的一种英语句法形式主义的树库和相关工具，本文概述了 CGELBank 注释方案的特殊性。

May, 2023

学习者英语的通用依存关系

TLE 是第一个提供公开的英语为第二语言的句法树库，它为来自剑桥英语第一证书（FCE）语料库的 5,124 个句子提供了手动注释的 POS 标签和通用依赖（UD）树。该树库可用于支持广泛的第二语言习得领域和自动处理不流畅语言的计算机研究。

May, 2016

ChatLang-8: 基于 LLM 的语法错误修正合成数据生成框架

我们探索和改进 LLM 的能力，以生成语法错误纠正（GEC）的数据，提出了一个自动化框架，并引入了一个名为 ChatLang-8 的新数据集，该数据集包含八种主题名词和 23 种语法类型，实验结果表明我们的框架和 ChatLang-8 对于提高 ChatGPT 的数据生成能力具有价值。

Jun, 2024

基于语言规则的本地化中文语法纠错语料库生成

本文提出了一种基于语言规则的方法来构建自动生成语法错误的大规模中文语法错误纠正训练语料库，并提出了一个挑战性的中文语法错误纠正基准，旨在解决当前缺乏高质量标注的训练语料库和测试集不是由中文母语人士制作的问题。实验结果表明，我们提出的训练数据构建方法有效地提高了中文语法错误纠正模型的性能，并且我们的基准是进一步发展中文语法错误纠正领域的绝佳资源。

Oct, 2022

英语的词汇树连接语法

使用 TAG 理论实现了一份大规模的英语语法，并加以扩展来处理各种句法现象和特征结构。

Sep, 1998

语法错误纠正的语料生成

本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集，并使用迭代解码策略训练了神经语法纠错模型，最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。

Apr, 2019

FlaCGEC：一份带有细粒度语言标注的中文语法错误纠正数据集

介绍一种新的中文语法错误修正数据集（FlaCGEC），该数据集具有细粒度的语言注释，并评估了各种先进的 CGEC 方法在该数据集上的表现，结果显示该数据集具有挑战性，能够涵盖广泛的语法错误，并将其作为诊断数据集进行了评估现有的 CGEC 模型。

Sep, 2023

GECTurk：用于土耳其语的语法错误校正和检测数据集

为了克服对大多数语言缺乏大量平行标注数据的问题，本研究介绍了一种灵活可扩展的合成数据生成流程，应用于土耳其语。通过复杂的转换函数，实现了 20 多个专业编辑语法和拼写规则的生成，从而得到了 13 万句高质量平行句子。使用神经机器翻译、序列标注和前缀调参等三种基线模型，取得了良好的结果，并对领域外数据集进行了详尽实验，获得有关所提方法的可迁移性和鲁棒性的深入见解。通过发布数据集、基线模型和合成数据生成流程，我们鼓励进一步研究土耳其语错误检测和纠正。

Sep, 2023

学习语法的逻辑词嵌入

我们介绍了逻辑语法嵌入（LGE），这是一种受到预群组语法和范畴语法启发的模型，可从文本语料库中无监督推断词汇类别和句法规则。LGE 产生易懂的输出来总结其推断，具有完全透明的生成新句子的过程，并且可以从少至一百个句子中学习。

Apr, 2023

用于解析器评估的语料库标注

通过语料库标注方案与英文文本标注，我们描述了一种避免当前方法的缺点的解析器评估方法，并展示了该语料库如何用于评估健壮的解析器，以及与现有资源的关系。

Jul, 1999