MotionCLIP: 将人体动作生成暴露到 CLIP 空间
通过对视频帧中的运动线索进行建模、利用动态提示学习器生成与人类动作相关的运动感知提示并通过多模态交流模块实现协作学习,我们的方法在少样本学习和零样本学习中具有显著优势,并在少参数和额外计算成本的条件下实现了竞争性性能。
Aug, 2023
本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型,开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预,通过文本提示即可对输入的潜在向量进行修改,并引入了潜在映射器,提高了文本驱动的操作效率。实验表明该方法非常有效。
Mar, 2021
提出了 CLIP-Actor:一种基于文本的动作推荐和神经网格风格化系统,能够根据文本提示为 3D 人类网格动画建议运动序列和优化网格样式属性,这对于以前无法生成符合自然语言提示的 3D 人物运动效果是非常独特的,CLIP-Actor 可以仅仅通过自然语言提示产生具有细节几何和纹理的真人可识别的风格 3D 人类网格运动。
Jun, 2022
我们介绍了一种名为 AnomalyCLIP 的新方法,它首次将大语言和视觉(LLV)模型(如 CLIP)与多实例学习相结合,用于联合视频异常检测和分类。我们通过操纵潜在的 CLIP 特征空间来识别正常事件子空间,并有效地学习文本驱动的异常事件方向。我们还引入了一种计算效率高的 Transformer 架构来建模帧之间的短期和长期时序依赖关系,最终产生最终的异常分数和类别预测概率。我们通过对比三个主要的异常检测基准测试,即 ShanghaiTech,UCF-Crime 和 XD-Violence,实证地表明 AnomalyCLIP 在识别视频异常方面优于基准线方法。
Oct, 2023
通过对 CLIP 和 CLOOB 模型嵌入空间的拓扑数据分析,研究探索了多模态模型发展及其下游性能的关联,揭示了嵌入空间中的细微差异,为进一步改进和推进多模态模型研究提供了基础。
May, 2024
提出一个两阶段模型,先用 prior 生成 CLIP 图像嵌入,再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性,并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior,发现后者更加高效且产生的样本更优。
Apr, 2022
该研究论文介绍了一种在文本 - 视频检索中学习视频语义表示的方法,通过将一个空间 - 时间上下文模块引入图像编码器,并通过辅助视频字幕目标进行训练,以提高视频帧的语义能力。在增强后的帧表示上使用简单的时序融合策略,取得了三个基准数据集(MSR-VTT,MSVD 和 LSMDC)的最先进性能。
Aug, 2023
该研究提出了一种生成式动作风格化流程,利用跨模态风格提示在跨结构角色上合成多样化和风格化的动作。通过将动作风格嵌入跨模态潜空间并感知跨结构骨架拓扑,该方法在标准动作空间内实现动作风格化。通过定性和定量实验,证明了该流程在各种角色和风格描述中的灵活性和通用性,一致提供高质量的风格化动作。
Mar, 2024
提出了一种称为 CLIP-Hand3D 的新颖的 3D 手势估计器,能够成功地将文本提示与不规则的详细姿势分布连接起来,并通过对姿势标签进行编码,形成相应的文本提示,并从中检索 3D 空间中的 21 个手关节,并对它们的空间分布进行编码以形成姿势感知特征,随后通过构建一个粗到细的网格回归器来最大化姿势 - 文本特征对的语义一致性,实验结果表明该模型相比使用相似规模骨干的方法,在几个公开手部基准测试中实现了更快的推断速度和最先进的性能。
Sep, 2023
IMU2CLIP 是一种新型的预训练方法,用于将惯性测量单元(IMU)运动传感器记录与视频和文本对齐,从而在对比度语言 - 图像预训练 (CLIP) 的联合表示空间中将其投影,该方法允许 IMU2CLIP 将人体动作转化为相应的文本描述和视频,并保持这些模态之间的传递性,用于多种应用,包括基于动作的媒体检索和自然语言推理任务以及活动识别等,并展示了 IMU2CLIP 在每种应用的定制预训练可大大提高下游性能,彰显了其作为预训练资源的通用用途。
Oct, 2022