第三人称视角总结第一人称视频
本文提出了一种新的半孪生卷积神经网络架构,以解决第一人称和第三人称视频之间的人物层面的对应关系问题,在关注联合场景理解,物体追踪和活动识别方面有显着的性能提升。
Apr, 2017
本文提出一种基于注意力模型、注重注视点和视觉场景分析生成视频语义得分的方法,以加速重要片段并跳过重复片段的第一人称视频片段浏览。在公开的第一人称视频数据集上进行的实验评估表明,此方法能够有效提高视频片段搜索速度和准确性。
Jun, 2020
本研究提出了一种新的视频摘要方法,即根据用户关注的特定视频方面来生成摘要。通过使用聚类技术来确定视频的语义相似性并减少冗余性,同时提高多组视频的摘要的多样性,本文提出了一种基于 Fisher 判别准则的摘要选择方法,并使用自制数据集对其进行了定量和定性实验证明了该摘要方法的有效性。
Apr, 2018
该论文提出了一种基于深度视频特征和聚类的视频摘要技术,旨在更高效地生成互联网视频的概览,该技术通过设计一种映射视频和描述的深度神经网络来将视频元素转化为语义空间。
Sep, 2016
视频摘要是一个至关重要的研究领域,旨在从当今海量视频内容中高效浏览和检索相关信息。尽管视频摘要的重要性,缺乏多样化和有代表性的数据集阻碍了算法的全面评估和基准测试。为了克服数据稀缺的挑战并改进评估,我们提出了一种利用视频数据结构和信息生成信息摘要的无监督方法。此外,我们还引入了一种专门用于视频摘要的创新评估流程。实验结果表明,我们的无需训练的框架优于现有的无监督方法,并与最先进的监督方法取得竞争性结果。
Apr, 2024
本文介绍了一种基于深度神经网络的视频摘要方法,该方法使用了多模态自监督学习框架,该框架可以在不需要大规模标注数据的情况下,通过视频与文本之间的语义一致性来获取视频的语义表示,并提出了一种渐进式摘要方法。实验表明,该方法的排名相关系数和 F 分数均优于现有视频摘要方法。
Jan, 2022
基于对人类生成的视频摘要的洞察,本论文提出了一种新的视频摘要方法,该方法利用条件建模的视角,引入多个有意义的随机变量和联合分布来刻画视频摘要的关键组成部分,并利用辅助分布改进模型的训练。设计了条件注意力模块来减轻多模态输入可能导致的性能下降,该方法融合了以上创新设计选择,旨在缩小人工生成和机器生成视频摘要之间的差距。大量实验证明该方法优于现有方法,并在常用视频摘要数据集上实现了最先进的性能。
Nov, 2023
快速理解冗长的讲座视频对于时间有限、兴趣有限的学习者提高学习效率非常重要。为此,我们提出了 FastPerson 视频摘要方法,该方法考虑了讲座视频中的视觉和听觉信息,通过利用音频转录、屏幕上的图像和文本创建摘要视频,最大限度地减少了学习者忽视关键信息的风险。此外,它还提供了一个功能,允许学习者在视频的每个章节之间切换摘要和原始视频,使他们能够根据自己的兴趣和理解水平调节学习的节奏。我们对 40 名参与者进行了评估,验证了我们的方法在与传统视频播放方法相同的理解水平下,减少了 53% 的观看时间。
Mar, 2024
本研究提出了一种针对 egocentric(或 “穿戴式”)相机数据的视频摘要方法,通过使用区域线索和学习回归器,选择与相机佩戴者互动最多的重要对象和人,以生成紧凑的故事板摘要,并享有相对于现有显著性和摘要技术的巨大优势。
May, 2015
本文提出了通过结合多种特征源进行特征融合的视频摘要算法,该算法在两个基准测试数据集 TVSum 和 SumMe 上取得了最新的研究结果,并对以往的研究方法进行了评估,同时进行误差分析以找出导致分类错误的因素。
May, 2021