视频语义分割的运动状态对齐
本文提出了一种多模态视频分割方法,通过语言引导的特征融合模块和多模态对齐损失函数,将视觉外观、运动信息和语言特征融合,实现了精准的文本视频分割。在 A2D Sentences 和 J-HMDB Sentences 数据集上的实验表明,该方法与现有方法相比具有更好的性能和泛化能力。
Apr, 2022
SemanticBoost 是通过 Semantic Enhancement 模块和 Context-Attuned Motion Denoiser 方法同时解决数据集中语义注释不足和语境理解不强的问题,以生成高质量、语义一致的运动序列的一种新颖框架。
Oct, 2023
本研究提出了一个新颖的基于 Semantics ConsistentTransformer(SCTNet)的无对齐网络,其中包括空间和通道注意力模块。 我们还介绍了一个新的逼真 HDR 数据集,与传统数据集相比获得了更好的性能和计算成本的权衡。
May, 2023
本研究致力于构建一种序列到序列的架构,用于实现动作到语言的翻译和同步。我们提出了一种适用于同步 / 实时文本生成的新的局部注意力的递归表达形式,以及一种更适用于较小数据和同步生成的改进动作编码器架构。通过在 KIT 运动语言数据集上的实验证明,这两个因素都增加了生成文本质量和同步质量。
Oct, 2023
该研究提出了一种基于视频语义的超分辨率方法,通过引入语义先验信息并结合像素级特征,实现了准确的帧间对齐,从而在视频超分辨率任务中获得了优于现有方法的结果。
Dec, 2023
本文提出了一种同时估计光流和时间连续的语义分割的方法,将这两个问题领域紧密相连并相互利用,从而使场景理解的重要性和需求与自主系统的积极发展不断增加,并对 KITTI 基准测试中的性能进行了演示。
Jul, 2016
本文介绍一种无监督的视频对准方法,通过人体检测、姿态估计、VGG 网络等机器视觉工具提取并结合构建多维时间序列,利用 Diagonalized Dynamic Time Warping (DDTW) 算法对相同动作的视频进行对齐,采用新型评价指标 Enclosed Area Error (EAE) 显示本文方法在视频对齐任务和相位分类任务上均优于之前最先进的方法 (TCC 等)。
Apr, 2023
使用视觉语言模型提取和保留有意义的运动语义,该方法通过可微分模块渲染 3D 动作并将高级运动语义与提取的语义嵌入进行对齐,以确保保留微观动作细节和高级语义,实验证明了该方法在产生高质量的运动重定向结果的同时准确保留了运动语义。
Dec, 2023
本文提出了一种基于光流变形模块和深度网络层的信息检索方法,来更好地聚合时间信息,以提高视频阴影检测的性能,在 ViSha 数据集上测试表明模型的 BER 从 16.7 降低到 12.0,且优于当前最先进的视频阴影检测方法 28%。
Jul, 2021