May, 2024

用于科学论文自动摘要的俄语多模态数据集

TL;DR该论文讨论了创建一个俄语科学论文的多模态数据集,并测试了现有的语言模型在自动文本摘要任务上的表现。该数据集的特点是其多模态数据,包括文本、表格和图形。论文介绍了使用 SBER 的 Gigachat 和 Yandex 的 YandexGPT 两个语言模型的实验结果。数据集包含 420 篇论文,可在此 https URL 上公开获取。