视频集合的无监督语义分析

Jun, 2015

Unsupervised Semantic Parsing of Video Collections

Ozan Sener, Amir Zamir, Silvio Savarese, Ashutosh Saxena

TL;DR本文提出了一种用视觉和语言线索联合生成模型实现的，可以无监督地将视频解析成语义步骤的方法，该方法可以为视频片段提供语义 “故事情节” 和文字描述，并在大量复杂的 YouTube 视频上进行了评估。

Abstract

human communication typically has an underlying structure. This is reflected in the fact that in many user generated videos, a starting point, ending, and certain objective steps between these two can be identified. In this paper, we propose a method for parsing a video into such

human communication user-generated videos semantic steps joint generative model youtube videos

发现论文，激发创造

无监督视频集合中的语义行为发现

通过视觉和语言提示的联合生成模型，对互联网上海量的指示视频进行语义步骤解析，为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。

May, 2016

使用叙述指令视频进行无监督学习

本文提出一种基于非监督学习的方法，通过集合指导语音和视频，可以自动地学习完成某项任务的主要步骤，例如更换汽车轮胎。通过应用两个聚类问题，同时解决文本和视频中的信息，使它们连接在一起，得出在两种情况下都具有一致性的主要步骤。本文提出的方法可以自动地在输入视频中发现和定位处于任务中的主要步骤。作者还采集和注解了一个包含旨在模拟真实场景的任务的挑战数据集。

Jun, 2015

使用深度语义特征的视频摘要

该论文提出了一种基于深度视频特征和聚类的视频摘要技术，旨在更高效地生成互联网视频的概览，该技术通过设计一种映射视频和描述的深度神经网络来将视频元素转化为语义空间。

Sep, 2016

基于多模态自监督学习的渐进式视频摘要技术

本文介绍了一种基于深度神经网络的视频摘要方法，该方法使用了多模态自监督学习框架，该框架可以在不需要大规模标注数据的情况下，通过视频与文本之间的语义一致性来获取视频的语义表示，并提出了一种渐进式摘要方法。实验表明，该方法的排名相关系数和 F 分数均优于现有视频摘要方法。

Jan, 2022

利用语言引导的自监督视频摘要生成方法，考虑视频多样性的文本语义匹配

通过使用大型语言模型作为引导，本文提出了一种新颖的自监督视频摘要框架，通过生成视频帧的字幕，并将其合成为文本摘要，衡量帧字幕和文本摘要之间的语义距离，最终选择与文本摘要相似的帧来生成摘要视频。该方法在视频摘要任务中取得了有竞争力的结果，并为视频摘要领域开辟了新的道路。

May, 2024

视频字幕的判别性潜在语义图

该研究提出了一种联合框架解决视频自动生成字幕中的三个关键问题，包括融合时空信息增强物体建议、动态提取高语义级别的视觉词，以及生成字幕验证确保语义概念的有效保留。实验表明该方法在各种评价指标上都显著优于现有的自然语言生成模型。

Aug, 2021

视频中的话语解析：一种多模态方法

本文提出 Visual Discourse Parsing 任务，通过识别视频场景来了解视频中场景之间的话语关系，并提出了一种不需要显式身份识别和注释场景的方法识别视觉话语线索。通过构建包含 310 个视频和相应话语线索的新数据集评估所提出的方法，这可能有助于诸如 Visual Dialog 和 Visual Storytelling 等领域的多学科 AI 问题的解决。

Mar, 2019

利用字幕的关注语义视频生成

该研究提出了一种网络架构，利用标题执行可变长度的语义视频生成。网络能够区分视频中的对象，动作和交互，并将它们与长期和短期依赖结合起来，以增量方式生成视频。网络通过学习潜在表示对视频进行无监督生成，并在执行其他任务时表现出了良好的能力，如动作识别和空时样式转移。

Aug, 2017

视频（语言）建模：自然视频生成模型的基线

本文提出了一种用于无监督特征学习的视频数据的强基线模型，通过学习预测输入视频序列中缺少的帧或外推未来帧，该模型发现了对于表示复杂变形和运动模式有用的空间和时间相关性，并且是借鉴语言建模文献，通过将图像补丁的空间量化为一个大字典，适应了视觉领域。我们在填充和生成任务上演示了该方法。第一次，我们展示了在自然视频上训练后，这样一个模型可以预测短视频序列中的非平凡运动。

Dec, 2014

具有可变细节级别的连贯多句视频描述

本文介绍了一种通过从视频中学习语义表示（SR）并以 SR 为基础来生成多句连贯的自然语言描述的方法，同时也提出了基于手的视觉识别方法以及利用词格进行句子生成的方法，并通过人类评价证明了该方法比现有相关工作能够生成更可读、准确和相关的描述。

Mar, 2014