CSL：一个大规模的中文科技文献数据集

COLINGSep, 2022

CSL：一个大规模的中文科技文献数据集

CSL: A Large-scale Chinese Scientific Literature Dataset

Yudong Li, Yuqing Zhang, Zhe Zhao, Linlin Shen, Weijie Liu...

TL;DR本研究介绍了 CSL，一个包含 39.6 万篇中国科技文献的大型数据集，为中国自然语言处理和监督学习提供了有意义的语料库和标注。同时，本研究还基于 CSL 提出了一个基准用于评估模型在科技领域任务中的表现，如摘要生成、关键词提取和文本分类，并分析已有 NLP 模型在这些任务上的表现，揭示了进行中文科技 NLP 任务所面临的挑战。

Abstract

Scientific literature serves as a high-quality corpus, supporting a lot of Natural Language Processing (nlp) research. However, existing datasets are centered around the English language, which restricts the development of Chinese scientific →

chinese scientific literature nlp dataset benchmark supervised learning

发现论文，激发创造

LCSTS: 一个大型的中文短文本摘要数据集

本文介绍了一个由新浪微博构建的大型中文短文本摘要数据集，包含超过 200 万条中文短文本和对应的短摘要，并通过该数据集引入了基于递归神经网络的摘要生成方法，取得了良好的效果，该方法不仅显示了所提出数据集在短文本摘要研究中的有用性，也为后续研究提供了基线。

Jun, 2015

CLTS+: 一个新的中文长文本摘要数据集，具有生成式摘要

为提高模型的创造能力，该研究构建了含超过 180K 篇文章 - 摘要对的具有高度抽象性的中文长文本摘要数据集（CLTS+），并提出了一种基于共现词的评估该数据集的内在度量方法。

Jun, 2022

CL-SciSumm 2018 共享任务：结果与关键见解

CL-SciSumm Shared Task 2018 was held as part of SIGIR's Annual Conference, which focused on scientific document summarization in the computational linguistics domain, evaluated using two metrics and providing datasets for the community.

Sep, 2019

一个大规模的中文短文本对话数据集

本文介绍了一个大型的、经过清洗的中文对话数据集 LCCC，包含基础版和大型版两种版本，共计 680 万和 1200 万对话。数据集的质量通过一套规则和分类器确保。此外，本文还释放了 LCCC-base 和 LCCC-large 的预训练对话模型，这些数据集和模型将有助于研究短文本对话建模。

Aug, 2020

中文文学文本的语篇级别命名实体识别和关系抽取数据集

本文构建了一个基于语篇水平的汉语文学语料库，提出两种标记方法来解决数据不一致性的问题，并介绍了几种常用模型进行实验，研究结果不仅展示了该数据集的可用性，而且为进一步的研究提供了基线。

Nov, 2017

汉语句子简化的新数据集和实证研究

这篇文章介绍了 CSS，一种新的用于评估中文简化句子的数据集，测试了几种无监督和零 / 少样本学习方法，并探讨了大型语言模型是否能够作为高质量的中文简化句子系统。

Jun, 2023

SciNLI：科学文本自然语言推理语料库

本文介绍了 SciNLI，它是一个用于 NLU 的大型 NLI 数据集，旨在捕捉科学文本中的规范性，并包含 107,412 个从 NLP 和计算语言学方面的学术论文中提取的句子对。我们的实验表明，SciNLI 比现有的 NLI 数据集更难分类。使用 XLNet 的最佳模型仅实现了 78.18％的 Macro F1 得分和 78.23％的准确度，表明还有很大的改进空间。

Mar, 2022

基于有效评估模型提取的大规模高质量中文网络文本

我们提出了 EvalWeb，一种从嘈杂的网络数据中提取中文干净文本的完整工具链，用于帮助大型语言模型的研究。使用这种方法，我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText，其中包含 1.42 TB 的文本，并为每个文本分配了一个质量评分，从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。

Nov, 2023

MLSUM: 多语言摘要语料库

我们提出了 MLSUM，这是第一个大规模的多语言摘要数据集，包括五种不同语言的 150 万篇文章 / 摘要对，与来自 CNN / Daily mail 数据集的英文报纸一起，构成一个大规模的多语言数据集，可以为文本摘要社区提供新的研究方向。我们基于最先进的系统进行交叉语言比较分析，发现了现有偏见，这促使我们使用多语言数据集。

Apr, 2020

ACLSum: 科学出版物面向方面的概述的新数据集

提供了一个由领域专家精心制作和评估的新型摘要数据集 ACLSum，集成了多个方面的科学论文摘要，通过对预训练语言模型和最先进的大型语言模型（LLMs）的性能进行广泛实验，探索学术领域中抽取式与生成式摘要的有效性，结果证实了在学术领域中端到端基于方面的摘要的普遍优越性。

Mar, 2024