COLINGApr, 2024

TeClass:一个基于人工标注的基于相关性的头条分类和生成的泰卢固语数据集

TL;DR提供了第一份人工标注的泰卢固语新闻标题分类数据集(TeClass),包括 78,534 个注释和 26,178 个文章 - 标题对。通过使用 TeClass 数据集微调各种标题生成模型,对高度相关的文章 - 标题对微调的模型生成的头条显示增加了大约 5 个 ROUGE-L 分数点。为了激励未来的研究,标注数据集和标注指南将公开提供。