- 视频探索的因果关系视频摘要器
本文提出了基于因果关系的视频摘要器(CVS),它采用了概率编码器和概率解码器来有效地捕捉视频和查询之间的交互信息,从而提高了多模态视频摘要的精度。与现有的方法相比,CVS 的准确度提高了 5.4%,F 1 - 得分提高了 4.92%。
- 基于伪标签监督的视频查询摘要
本文介绍了一种利用自我监督和伪标记来预先训练深度模型,并提出了一种含义增强器和相互关注的方法来生成上下文感知的查询表示,以改进视频摘要任务的性能,并在常见的视频摘要 benchmark 中获得了最先进的性能。
- 无监督视频摘要的遮蔽自动编码器
本文提出了一种基于自监督学习的无监督自编码器视频摘要方法,无需其他下游架构或微调权重即可实现摘要。该方法利用解码器的重构分数来评估每帧的重要性得分,并通过实验表明其在各种实验环境下均具有有效性。
- 运动基于手势语言视频摘要使用曲率和扭率
本文提出了一种基于曲率和挠率的新方法,将三维运动建模成为视频中关键帧的选择依据,并在手语视频中进行了多个实验,通过地面真值关键帧注释、人为理解的人类评估以及术语分类等多方面,证明了该方法的实用性与可行性。
- 通过自然语言查询进行联合时刻检索和高亮检测
本计划提出了一种新方法,使用多模式 Transformer 进行基于自然语言查询的视频摘要和亮点检测,以匹配用户自然语言查询来检索视频中最相关和最有趣的时刻, 并在多个数据集上进行评估,如 YouTube 亮点和 TVSum。
- CVPR因果解释器:自动视频摘要的因果解释
本文提出一种 Causal Explainer 模型,该模型采用多个有意义的随机变量和它们的联合分布来解释视频摘要问题中的关键组件,同时引入辅助分布加强模型训练,在视觉 - 文本输入场景下,采用因果语义抽取器从视觉和文本输入中提取相互信息, - VideoXum: 视频的跨模态视觉和文本摘要
我们提出了一个新的联合视频和文本摘要任务,旨在生成一个缩短的视频剪辑和相应的文本摘要,我们通过构建一个大规模的人类注释数据集 - VideXum 来解决此问题,并使用新的度量标准 VT-CLIPScore 来评估跨模态摘要的语义一致性。我们 - ECCV使用任务相关性和跨模态显著性总结教学视频
本文使用伪摘要的方法,提出了一种结合上下文感知时态视频编码器和片段评分转换器的教学视频摘要网络,并将其应用于 WikiHow Summaries 数据集。结果表明,该模型在教学视频摘要方面显著优于各基准和最先进的视频摘要模型。
- ECCV基于复合样本原型匹配的小样本动作识别
本论文提出了一种新颖的方法,将视频汇总为由一组全局原型和一组聚焦原型组成的复合原型,并基于原型进行视频相似性比较,进而用于小样本动作识别,实验结果显示该方法在多个基准测试上达到了最先进的成果。
- 探索全球多样性和本地上下文应用于视频摘要
提出了基于全局多样性注意力和局部上下文注意力的视频摘要模型 SUM-DCA,通过广泛实验证实了其在 F 分数和基于排名的评估方面的有效性和优越性。
- LTC-SUM:轻量级客户驱动的个性化视频摘要框架(基于 2D CNN)
提出了一种基于缩略图容器的轻量级视频摘要 (LTC-SUM) 框架,使用终端用户设备的计算资源为并发用户生成个性化关键帧摘要。通过在缩略图中设计轻量级 2D CNN 模型仅提取特定的视频片段,实现了普适性和隐私保护,提高了通信和存储效率,相 - 基于多模态自监督学习的渐进式视频摘要技术
本文介绍了一种基于深度神经网络的视频摘要方法,该方法使用了多模态自监督学习框架,该框架可以在不需要大规模标注数据的情况下,通过视频与文本之间的语义一致性来获取视频的语义表示,并提出了一种渐进式摘要方法。实验表明,该方法的排名相关系数和 F - EMNLP基于视觉引导的生成式预训练语言模型进行多模态抽象摘要
该研究提出了一种有效的方法,使用基于注意力的添加层来整合视觉信息,构建了引导语言模型进行视频摘要的模型,通过模态融合的方法,使该模型在 How2 数据集上的 ROUGE-1、ROUGE-2 和 ROUGE-L 比之前的最新研究提高了 5.7 - CLIP-It!基于语言指导的视频摘要
CLIP-It 是一种单一框架用于通用和基于查询的视频摘要,使用语言指导的多模式变压器来学习评分视频中的帧,并可以扩展到无监督环境。 在标准的视频摘要数据集和基于查询的视频摘要数据集上均表现出显著的优异性能。
- 多源特征无监督视频摘要
本文提出了通过结合多种特征源进行特征融合的视频摘要算法,该算法在两个基准测试数据集 TVSum 和 SumMe 上取得了最新的研究结果,并对以往的研究方法进行了评估,同时进行误差分析以找出导致分类错误的因素。
- 用于视频摘要的重建序列图网络
提出了一种基于 Reconstructive Sequence-Graph Network 的视频摘要算法,该算法通过在长短时记忆和图卷积网络中编码帧和镜头之间的依赖关系并利用重构损失函数,可以用于无监督学习,其通过在 SumMe,TVsu - MM查询两次:双重混合关注元学习用于视频摘要
本文提出了一种新的框架,即 Dual Mixture Attention (DMASum) 模型,其中 Mixture of Attention layer (MoA) 通过两次自己 - 查询注意实现,可以捕获二阶变化以及初始查询 - 键注 - ECCV通过学习用户历史记录实现自适应视频精彩片段检测
本论文提出了一种基于神经网络的视频摘要方法,通过整合用户历史信息和 T-AIN 层的用户自适应信号来实现更加准确和个性化的视频精华提取。
- ECCV递归图建模实现视频摘要的 SumGraph 算法
本文提出了一种递归图建模网络框架 SumGraph,将视频摘要生成问题转化为了图建模问题,并利用图卷积网络对递归建模过程中的节点进行二分类,从而达到更好的视频摘要效果。经实验证明,该方法在视频摘要领域取得了当前最优效果。
- 可查询的视频摘要
本文提出一种基于监督学习的、端到端深度学习的方法,用于生成与文本查询相关联的视频摘要。该方法提出了包括视频摘要控制器、视频摘要生成器和视频摘要输出模块在内的一整套系统,并介绍了一个包含帧级别相关性评分标签的数据集。实验结果表明,文本查询可以