CSL:一个大规模的中文科技文献数据集
本文介绍了一个由新浪微博构建的大型中文短文本摘要数据集,包含超过 200 万条中文短文本和对应的短摘要,并通过该数据集引入了基于递归神经网络的摘要生成方法,取得了良好的效果,该方法不仅显示了所提出数据集在短文本摘要研究中的有用性,也为后续研究提供了基线。
Jun, 2015
为提高模型的创造能力,该研究构建了含超过 180K 篇文章 - 摘要对的具有高度抽象性的中文长文本摘要数据集(CLTS+),并提出了一种基于共现词的评估该数据集的内在度量方法。
Jun, 2022
CL-SciSumm Shared Task 2018 was held as part of SIGIR's Annual Conference, which focused on scientific document summarization in the computational linguistics domain, evaluated using two metrics and providing datasets for the community.
Sep, 2019
本文介绍了一个大型的、经过清洗的中文对话数据集 LCCC,包含基础版和大型版两种版本,共计 680 万和 1200 万对话。数据集的质量通过一套规则和分类器确保。此外,本文还释放了 LCCC-base 和 LCCC-large 的预训练对话模型,这些数据集和模型将有助于研究短文本对话建模。
Aug, 2020
本文构建了一个基于语篇水平的汉语文学语料库,提出两种标记方法来解决数据不一致性的问题,并介绍了几种常用模型进行实验,研究结果不仅展示了该数据集的可用性,而且为进一步的研究提供了基线。
Nov, 2017
这篇文章介绍了 CSS,一种新的用于评估中文简化句子的数据集,测试了几种无监督和零 / 少样本学习方法,并探讨了大型语言模型是否能够作为高质量的中文简化句子系统。
Jun, 2023
本文介绍了 SciNLI,它是一个用于 NLU 的大型 NLI 数据集,旨在捕捉科学文本中的规范性,并包含 107,412 个从 NLP 和计算语言学方面的学术论文中提取的句子对。我们的实验表明,SciNLI 比现有的 NLI 数据集更难分类。使用 XLNet 的最佳模型仅实现了 78.18%的 Macro F1 得分和 78.23%的准确度,表明还有很大的改进空间。
Mar, 2022
我们提出了 EvalWeb,一种从嘈杂的网络数据中提取中文干净文本的完整工具链,用于帮助大型语言模型的研究。使用这种方法,我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText,其中包含 1.42 TB 的文本,并为每个文本分配了一个质量评分,从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。
Nov, 2023
我们提出了 MLSUM,这是第一个大规模的多语言摘要数据集,包括五种不同语言的 150 万篇文章 / 摘要对,与来自 CNN / Daily mail 数据集的英文报纸一起,构成一个大规模的多语言数据集,可以为文本摘要社区提供新的研究方向。我们基于最先进的系统进行交叉语言比较分析,发现了现有偏见,这促使我们使用多语言数据集。
Apr, 2020
提供了一个由领域专家精心制作和评估的新型摘要数据集 ACLSum,集成了多个方面的科学论文摘要,通过对预训练语言模型和最先进的大型语言模型(LLMs)的性能进行广泛实验,探索学术领域中抽取式与生成式摘要的有效性,结果证实了在学术领域中端到端基于方面的摘要的普遍优越性。
Mar, 2024