用于科学论文自动摘要的俄语多模态数据集

May, 2024

用于科学论文自动摘要的俄语多模态数据集

Russian-Language Multimodal Dataset for Automatic Summarization of Scientific Papers

Alena Tsanda, Elena Bruches

TL;DR该论文讨论了创建一个俄语科学论文的多模态数据集，并测试了现有的语言模型在自动文本摘要任务上的表现。该数据集的特点是其多模态数据，包括文本、表格和图形。论文介绍了使用 SBER 的 Gigachat 和 Yandex 的 YandexGPT 两个语言模型的实验结果。数据集包含 420 篇论文，可在此 https URL 上公开获取。

Abstract

The paper discusses the creation of a multimodal dataset of Russian-language scientific papers and testing of existing language models for the task of →

multimodal dataset russian-language scientific papers automatic text summarization language models gigachat and yandexgpt

发现论文，激发创造

自动摘要俄罗斯新闻的数据集

本文介绍了 Gazeta 数据集，它是用于俄语新闻报道的第一个自动文本摘要数据集，并对其进行了扩展性和抽象性模型的基准测试和评估。结果表明，该数据集适用于俄语文本摘要任务，并且预训练的 mBART 模型可用于俄语文本摘要。

Jun, 2020

大规模多语言多模态摘要数据集

该研究介绍了目前最大的多语言多模态摘要数据集 (M3LS)，该数据集由超过一百万个来自 BBC 的新闻文章组成，跨越 20 种语言，目标在于 5 个语言根上的多样性。研究者们利用该数据集定义了一项多语言多模态摘要任务，并在多语言环境下使用各种最先进的摘要技术报告了基准分数。

Feb, 2023

MLSUM: 多语言摘要语料库

我们提出了 MLSUM，这是第一个大规模的多语言摘要数据集，包括五种不同语言的 150 万篇文章 / 摘要对，与来自 CNN / Daily mail 数据集的英文报纸一起，构成一个大规模的多语言数据集，可以为文本摘要社区提供新的研究方向。我们基于最先进的系统进行交叉语言比较分析，发现了现有偏见，这促使我们使用多语言数据集。

Apr, 2020

TalkSumm: 基于学术会议演讲的科学论文摘要数据集和可扩展标注方法

本文提出了一种利用科学会议上的演讲视频自动生成科技论文摘要的新方法，通过收集 1716 篇论文及其对应的视频，并创建了一个摘要数据集，最终模型在该数据集上的表现与手动摘要数据集上的模型相当，并通过人工专家验证了自动生成摘要的质量。

Jun, 2019

MultiSum：用于视频的多模式摘要和缩略图生成的数据集

通过创建包含视频和文本内容的人工验证摘要、17 个主分类和 170 个子分类的全面的数据集 MultiSum dataset，本文针对现有公共 MSMO 数据集的限制进行研究，进行了基准测试，并推出了数据收集工具和开放源代码资源以促进透明度和加速未来发展。

Jun, 2023

Multi-XScience：一种用于科学文章极端多文档摘要的大规模数据集

我们提出了 Multi-XScience 数据集，这是一个从科学文章中创造出来的大规模多文档摘要数据集，包括文献综述部分的写作，并且适用于抽象模型。通过使用 Multi-XScience 数据集对多个最新技术模型的实验结果，在技术上证明了其适用性。

Oct, 2020

跨语言摘要模型与数据集

本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库，在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究，验证了所提出的跨语言摘要任务。最后，作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。

Feb, 2022

X-SCITLDR：学术文献的跨语言极端摘要

本研究填补了前人研究的空白，提出了一个多语种的学术领域摘要数据集，基于此我们能够训练和评估处理英语论文并生成德语、意大利语、汉语和日语摘要的模型，同时分析了在零样本和少样本情况下训练的性能。

May, 2022

科学论文摘要的监督式提取方法

本文介绍了一种新的数据集，用于总结计算机科学出版物，展示了利用神经句子编码和传统的总结功能来开发模型的方式，并表明即使在传统的科学领域中，对句子的编码以及他们的本地和全局背景进行编码的模型也有很好的性能，并实现了明显优于已经建立的基准方法的结果。

Jun, 2017

体育领域的语言和多模态模型：数据集和应用调查

综述了自 2020 年以来推动这些创新的数据集和应用程序，对数据集进行了概述和分类，包括基于语言、多模态和可转换的数据集，强调了数据集对改善体育迷体验、支持战术分析和医学诊断等各种应用的贡献，并讨论了数据集开发的挑战和未来方向。该综述为希望在体育领域利用自然语言处理和多模态模型的研究人员和实践者提供了基础资源，提供了关于当前趋势和未来机会的洞察。

Jun, 2024