COLINGMar, 2024

SPACE-IDEAS: 空间创新中重要信息检测数据集

TL;DR使用自然语言处理来检测文本中的显著部分已被广泛应用于减少信息溢出的影响。本研究介绍了一个用于检测与太空领域创新想法相关的显著信息的数据集 SPACE-IDEAS。SPACE-IDEAS 中的文本差异很大,包括非正式的、技术的、学术的和商业导向的写作风格。除了手动注释的数据集外,我们还发布了一个使用大型生成语言模型进行注释的扩展版本。我们训练了不同的句子和连续句子分类器,并展示了自动注释的数据集可以通过多任务学习来训练更好的分类器。