YACLC: 一个中文学习者语料库，具有多维注释

Dec, 2021

YACLC: 一个中文学习者语料库，具有多维注释

YACLC: A Chinese Learner Corpus with Multidimensional Annotation

Yingying Wang, Cunliang Kong, Liner Yang, Yijun Wang, Xiaorong Lu...

TL;DR提出构建多维度标注的大规模中文学习者语料库 - YACLC，以提高中国国际教育和中文自动语法纠错研究的效果。

Abstract

learner corpus collects language data produced by L2 learners, that is second or foreign-language learners. This resource is of great relevance for second language acquisition research, foreign-language teaching, and automatic →

learner corpus chinese as foreign language annotated corpus grammatical error correction fluency-based corrections

发现论文，激发创造

基于语言规则的本地化中文语法纠错语料库生成

本文提出了一种基于语言规则的方法来构建自动生成语法错误的大规模中文语法错误纠正训练语料库，并提出了一个挑战性的中文语法错误纠正基准，旨在解决当前缺乏高质量标注的训练语料库和测试集不是由中文母语人士制作的问题。实验结果表明，我们提出的训练数据构建方法有效地提高了中文语法错误纠正模型的性能，并且我们的基准是进一步发展中文语法错误纠正领域的绝佳资源。

Oct, 2022

再探可接受判断

在大语言模型背景下，作者介绍了第一份经外语母语人士验证的大规模汉语非英语可接受性数据集 CoLAC，并通过交互式 turing 测试展示 model 和人之间的性能差距，同时也证明了可接受性知识可以跨越不同语言进行跨语言转移。

May, 2023

FlaCGEC：一份带有细粒度语言标注的中文语法错误纠正数据集

介绍一种新的中文语法错误修正数据集（FlaCGEC），该数据集具有细粒度的语言注释，并评估了各种先进的 CGEC 方法在该数据集上的表现，结果显示该数据集具有挑战性，能够涵盖广泛的语法错误，并将其作为诊断数据集进行了评估现有的 CGEC 模型。

Sep, 2023

MuCGEC: 用于中文语法纠错的多参考、多来源评估数据集

该论文提出了 MuCGEC，一种多参考，多资源的评估数据集，旨在中文语法错误纠正（CGEC）研究领域中提供一个丰富的数据来源，同时也讨论了 CGEC 评估方法以及提出的方法能够达到具有竞争性的基准表现。

Apr, 2022

CCAE：源自中国的亚洲英语语料库

该论文介绍了 CCAE（Corpus of Chinese-based Asian English）语料库，其为研究亚洲英语提供了重要的资源，尤其是中式英语，并在 NLP 技术的支持下为世界英语研究奠定了基础。

Oct, 2023

一个大规模的中文短文本对话数据集

本文介绍了一个大型的、经过清洗的中文对话数据集 LCCC，包含基础版和大型版两种版本，共计 680 万和 1200 万对话。数据集的质量通过一套规则和分类器确保。此外，本文还释放了 LCCC-base 和 LCCC-large 的预训练对话模型，这些数据集和模型将有助于研究短文本对话建模。

Aug, 2020

使用意大利 CoLA 语料库进行单 / 跨语言可接受性判断

使用类似于英文语料库的方法，创建了 ItaCoLA 语料库用于其他语言的自动文本可接受性分析和多语言转换器方法效果的评估。

Sep, 2021

评估大型语言模型在中文语法错误修正任务中的能力

大规模语言模型在中文语法错误纠正任务中的表现及其问题的调查报告。研究发现大语言模型在自动评估指标方面表现不如之前的模型，并存在过度纠正的问题。此外，不同数据分布下大语言模型的表现也存在明显差异。这些发现表明需要进一步研究大语言模型在中文语法错误纠正任务上的应用。

Jul, 2023

TALCS：一份开源的汉英混杂语料库及其语音识别基准

本文介绍了一种新的普通话 - 英语混用语音识别语料库 (TALCS corpus)，适用于训练和评估混合语音识别系统。使用 TALCS 语料库，作者在两个流行的语音识别工具包（ESPnet 和 Wenet）上进行实验以构建基线系统，证明了录音和转录的质量很有前途且基线系统可行。

Jun, 2022

跨语言图像标签、字幕和检索的 COCO-CN

本文提出了 COCO-CN 数据集和推荐辅助集体注释系统，通过学习跨语言资源，完成了跨语言的图片标记、字幕和检索任务，为跨语言图像注释和检索领域做出了重要贡献。

May, 2018