Jul, 2023

用于分类捷克新闻文本的数据集和强大基准线

TL;DR通过 CZEch~NEws~Classification~dataset 对 Czech 自然语言处理进行评估,发现语言特定的预训练编码器分析优于可选的大规模生成语言模型,并定义了四个分类任务:新闻来源、新闻类别、作者性别推断和星期几。