COLINGSep, 2022

CSL:一个大规模的中文科技文献数据集

TL;DR本研究介绍了 CSL,一个包含 39.6 万篇中国科技文献的大型数据集,为中国自然语言处理和监督学习提供了有意义的语料库和标注。同时,本研究还基于 CSL 提出了一个基准用于评估模型在科技领域任务中的表现,如摘要生成、关键词提取和文本分类,并分析已有 NLP 模型在这些任务上的表现,揭示了进行中文科技 NLP 任务所面临的挑战。