运动引导的令牌压缩用于高效的掩码视频建模
介绍了一种基于 Transformer 模型的 TokenMotion(TMNet),通过可学习的令牌选择提取运动引导特征,提升视频伪装对象检测的性能,在具有挑战性的 MoCA-Mask 数据集上,TMNet 在 VCOD 中实现了最先进的性能,加权 F-measure 提高了 12.8%,S-measure 提高了 8.4%,平均 IoU 提升了 10.7%,结果表明利用运动引导特征和可学习的令牌选择能够解决复杂的 VCOD 任务。
Nov, 2023
本文演示了在神经图像压缩中应用面向遮蔽令牌预测训练的双向变压器以实现最先进的结果。通过使用预定义的、确定性调度,本文证明这些模型在图像压缩方面表现良好。同时在训练过程中使用面向遮蔽的关注力以及在推断过程中使用激活缓存,能够使我们的模型显著地加速(推理速度提高了 4 倍),同时只需轻微提高比特率。
Apr, 2023
我们提出了一种运动引导的掩蔽算法 (MGM),通过利用运动矢量来引导每个掩蔽的位置,从而更高效地利用视频显著性,与先前的最先进方法相比,在两个具有挑战性的大规模视频基准 (Kinetics-400 和 Something-Something V2) 中,我们为视频 MAE 提供了 MGM 中的关键装备,并取得了高达 +1.3% 的改进。此外,我们的 MGM 只使用了最多 66% 的训练时期,就可以获得与先前的视频 MAE 相等的性能。最后,我们展示了 MGM 在 UCF101、HMDB51 和 Diving48 数据集上对下游迁移学习和领域自适应任务的更好泛化能力,与基线方法相比,取得了高达 +4.9% 的改进。
Aug, 2023
空间 - 时间变换器 (STT-VC) 是通过整合放松可变形变换器 (RDT)、多粒度预测 (MGP) 模块和基于空间特征分布先验的变换器 (SFD-T) 来提高学习视频压缩 (LVC) 的性能。实验结果表明,该方法相比于现有技术在 BD-Rate 节省上获得了 13.5% 的最佳结果。
Sep, 2023
本文介绍了一种新的视频自编码方法,采用运动引导的掩模策略,通过引入运动信息建立时间一致的掩模体积,从而提高视频自编码的性能。通过实验证明,该方法在视频预训练中能够更有效地处理时间一致性和信息泄漏问题。
Aug, 2023
MoMask 是一种新颖的掩码建模框架,用于文本驱动的 3D 人体动作生成,通过分层量化方案将人体动作表示为多层离散动作令牌,并使用两个不同的双向转换器进行预测和填补,实验证明在文本到动作生成任务中,MoMask 在 HumanML3D 数据集上的 FID 为 0.045(相较于 T2M-GPT 的 0.141)以及在 KIT-ML 上的 FID 为 0.228(相较于 0.514),同时可以无缝应用于文本引导的时间修补等相关任务。
Nov, 2023
在压缩领域中,通过使用简单而有效的端到端转换器实现从压缩视频中进行学习并进行视频字幕生成,该方法在不同基准测试中取得了最先进的性能,并且运行速度比现有方法快近 2 倍。
Sep, 2023
该论文提出了一种基于遮罩视频建模的压缩框架,特别是针对视频语义进行压缩,通过自监督学习方式联合挖掘和压缩语义。提出的框架作为简单的语义挖掘与压缩模型,并通过引入遮罩运动预测目标和基于 Transformer 的压缩模块进行扩展,实现更好的语义学习能力和压缩效果。实验结果表明,该模型在三个视频分析任务和七个数据集上比传统的视频编解码器表现更卓越。
Jun, 2024
基于掩码动作模型的新颖且简单的 MMM 运动生成范例旨在解决实时性、高保真度和动作可编辑性之间的权衡。通过将 3D 人体动作转换成潜空间中的离散标记序列以及根据预计算的文本标记条件预测随机掩码动作标记的条件掩码动画变换器,MMM 明确捕捉动作标记之间的内在依赖性和动作标记与文本标记之间的语义映射,并实现了与细粒度文本描述高度一致的多个动作标记的并行和迭代解码,从而同时实现了高保真度和高速度的动作生成。此外,MMM 具有固有的动作可编辑性,只需在需要编辑的位置放置掩码标记,即可自动填充空白部分并保证编辑和非编辑部分之间的平滑过渡。对 HumanML3D 和 KIT-ML 数据集进行的大量实验表明 MMM 在生成高质量动画方面超过了当前领先的方法(FID 得分分别为 0.08 和 0.429),同时还提供了诸如身体部位修改、动作插值和长动作序列合成等先进的编辑功能。此外,与可编辑动作扩散模型相比,MMM 在单个中档 GPU 上的速度提高了两个数量级。
Dec, 2023
提出 Flow-guided transformer plus (FGT++) 模型,通过轻量级的流完成网络、流引导功能模块及时空维度分离 MHSA 机制等方式,提高视频修复的效率与效果。
Jan, 2023