VT-SSum：一个视频转录分割及概要提取的基准数据集

Jun, 2021

VT-SSum：一个视频转录分割及概要提取的基准数据集

VT-SSum: A Benchmark Dataset for Video Transcript Segmentation and Summarization

Tengchao Lv, Lei Cui, Momcilo Vasilijevic, Furu Wei

TL;DR本文提出了一个基于视频讲座的英语口语文本摘要的基准数据集 VT-SSum，该数据集包含 9,616 个视频的 125K 个口语文本 - 摘要对，使用该数据集进行的实验结果表明，与 AMI 标准相比，使用 VT-SSum 进行训练的深度学习模型能够显著提高对口语文本的摘要质量。

Abstract

video transcript summarization is a fundamental task for video understanding. Conventional approaches for transcript summarization are usu

video transcript summarization spoken language benchmark dataset deep learning

发现论文，激发创造

VideoXum: 视频的跨模态视觉和文本摘要

我们提出了一个新的联合视频和文本摘要任务，旨在生成一个缩短的视频剪辑和相应的文本摘要，我们通过构建一个大规模的人类注释数据集 - VideXum 来解决此问题，并使用新的度量标准 VT-CLIPScore 来评估跨模态摘要的语义一致性。我们提出的 VTSUM-BILP 模型在此任务上取得了有希望的性能，并为未来研究建立了基准。

Mar, 2023

V2Xum-LLM：跨模态视频摘要与时间提示指导的调节

视频摘要旨在创建具有简短、准确和连贯特点的长视频摘要。通过引入 Instruct-V2Xum 数据集和 V2Xum-LLM 框架，该研究旨在解决现有视频摘要数据集的不足以及从单模态到多模态视频内容摘要的需求。

Apr, 2024

VCSUM：一个多用途的中文会议摘要数据集

本研究介绍了一个全面的中文会议记录数据集 (VCSum)，包含 239 个真实会议的记录，总时长超过 230 小时，并提供了主题分割、标题、段落摘要、总结摘要和关键语句的注释。研究分析确认了该数据集在会议记录摘要方面的有效性和稳健性，并提供了一组关于 VCSum 不同 downstream 摘要任务的基准模型，以促进进一步研究。

May, 2023

TalkSumm: 基于学术会议演讲的科学论文摘要数据集和可扩展标注方法

本文提出了一种利用科学会议上的演讲视频自动生成科技论文摘要的新方法，通过收集 1716 篇论文及其对应的视频，并创建了一个摘要数据集，最终模型在该数据集上的表现与手动摘要数据集上的模型相当，并通过人工专家验证了自动生成摘要的质量。

Jun, 2019

ESSumm: 从未转录会议中提取式演讲摘要

本文提出了一种新颖的直接抽取式语音摘要架构 ESSumm，它是一种基于深度学习的无线束模型，可以直接从语音中生成摘要，极大地提高了从未转录的数据的摘要质量。

Sep, 2022

大规模语言模型在视频摘要预训练中的扩展

利用大型语言模型生成大规模的视频摘要数据集，提出了一种新的视频摘要模型，并呈现了一个由专业人员注释的高质量摘要的基准数据集，实验证明该方法在多个基准测试中达到了最新的最佳效果。

Apr, 2024

医学对话的实时语音摘要

医患对话总结在识别与医学相关的信息中至关重要，本研究首次提出了用于工业实际应用的实时语音总结系统，并在会话中每 N 个语音表达后生成局部总结和会话结束后生成全局总结。我们的系统可以从商业角度提升用户体验，同时从技术角度降低计算成本。此外，我们还提出了第一个用于医学对话的语音总结数据集 VietMed-Sum，并首次利用 LLM 和人工标注者共同创建了医学对话总结的黄金标准和合成总结。最后，我们给出了 VietMed-Sum 上最先进模型的基准结果。在线上可以获取所有代码、数据（英语翻译和越南语）和模型。

Jun, 2024

AugSumm：利用大型语言模型生成的合成标签进行通用语音摘要

通过使用大型语言模型（LLM）作为人工标注者的代理，本研究提出了一种名为 AugSumm 的方法来生成用于训练和评估的增广摘要，通过在 ChatGPT 上生成的合成摘要验证其质量，并在训练和评估中利用这些合成摘要，实验证明在合成摘要上进行预训练并在 GT 摘要上进行微调可以改善 ROUGE-L 指标。

Jan, 2024

使用大型语言模型的端到端语音摘要

提出了一种利用 Q-Former 作为音频 - 文本模态连接器、采用大型语言模型从语音特征直接生成文本摘要的端到端 SSum 模型，并采用多阶段训练方法来提高模型处理长篇语音的能力，最终在 How-2 数据集上取得了具有竞争力的性能。

Jul, 2024

VideoSET：通过文本对视频摘要进行评估

本文提出 VideoSET，一种通过文本评估视频摘要的方法，该方法可以评估视频摘要能否保留其原始视频中包含的语义信息。我们观察到语义最容易用文字来表达，因此开发了一种基于文本的评估方法。通过生成视频摘要的文本表示，然后使用基于 NLP 的度量方法来测量其与人类编写的基准文本摘要的语义距离。我们展示了我们的技术与基于像素距离的度量方法相比具有更高的人类判断一致性。我们还发布了一些公开可用的视频数据集的文本注释和基准文本摘要，供计算机视觉社区使用。

Jun, 2014