YACLC: 一个中文学习者语料库,具有多维注释
本文提出了一种基于语言规则的方法来构建自动生成语法错误的大规模中文语法错误纠正训练语料库,并提出了一个挑战性的中文语法错误纠正基准,旨在解决当前缺乏高质量标注的训练语料库和测试集不是由中文母语人士制作的问题。实验结果表明,我们提出的训练数据构建方法有效地提高了中文语法错误纠正模型的性能,并且我们的基准是进一步发展中文语法错误纠正领域的绝佳资源。
Oct, 2022
在大语言模型背景下,作者介绍了第一份经外语母语人士验证的大规模汉语非英语可接受性数据集 CoLAC,并通过交互式 turing 测试展示 model 和人之间的性能差距,同时也证明了可接受性知识可以跨越不同语言进行跨语言转移。
May, 2023
介绍一种新的中文语法错误修正数据集(FlaCGEC),该数据集具有细粒度的语言注释,并评估了各种先进的 CGEC 方法在该数据集上的表现,结果显示该数据集具有挑战性,能够涵盖广泛的语法错误,并将其作为诊断数据集进行了评估现有的 CGEC 模型。
Sep, 2023
该论文提出了 MuCGEC,一种多参考,多资源的评估数据集,旨在中文语法错误纠正(CGEC)研究领域中提供一个丰富的数据来源,同时也讨论了 CGEC 评估方法以及提出的方法能够达到具有竞争性的基准表现。
Apr, 2022
该论文介绍了 CCAE(Corpus of Chinese-based Asian English)语料库,其为研究亚洲英语提供了重要的资源,尤其是中式英语,并在 NLP 技术的支持下为世界英语研究奠定了基础。
Oct, 2023
本文介绍了一个大型的、经过清洗的中文对话数据集 LCCC,包含基础版和大型版两种版本,共计 680 万和 1200 万对话。数据集的质量通过一套规则和分类器确保。此外,本文还释放了 LCCC-base 和 LCCC-large 的预训练对话模型,这些数据集和模型将有助于研究短文本对话建模。
Aug, 2020
大规模语言模型在中文语法错误纠正任务中的表现及其问题的调查报告。研究发现大语言模型在自动评估指标方面表现不如之前的模型,并存在过度纠正的问题。此外,不同数据分布下大语言模型的表现也存在明显差异。这些发现表明需要进一步研究大语言模型在中文语法错误纠正任务上的应用。
Jul, 2023
本文介绍了一种新的普通话 - 英语混用语音识别语料库 (TALCS corpus),适用于训练和评估混合语音识别系统。使用 TALCS 语料库,作者在两个流行的语音识别工具包(ESPnet 和 Wenet)上进行实验以构建基线系统,证明了录音和转录的质量很有前途且基线系统可行。
Jun, 2022
本文提出了 COCO-CN 数据集和推荐辅助集体注释系统,通过学习跨语言资源,完成了跨语言的图片标记、字幕和检索任务,为跨语言图像注释和检索领域做出了重要贡献。
May, 2018