语义视频预测中的模块化行动概念建模
本文提出了一种基于文本的视频分割方法,通过引入一个新的演员和动作的模块化网络,解决了语义不对称问题,同时提出了时间提案聚合机制,获得了单帧分割和全视频分割的最先进性能。
Nov, 2020
本研究提出了一种基于视觉 - 文本匹配的多模态学习框架,通过对标签文本的语义信息进行建模,并提出了一种新的 “预训练、提示和微调” 范例,以实现零样本行动识别。实验结果表明,ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力,而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。
Sep, 2021
通过创新地将视频模型与大型语言模型相结合,本研究采用基于行动条件的提示方法来增强文本嵌入的人类先验知识,从而在开放词汇视频动作识别中实现了新的最佳性能,并具有优越的可解释性。
Dec, 2023
本文提出了一种基于时间卷积的层次结构多模态神经网络,不依赖于循环层实现对人类动作的预测,且通过多模态融合机制使得在处理具有 # egocentric videos# 意义的庞大数据集时达到了与最新研究相当的性能,但具有明显的时间优势。
Jul, 2021
本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示,通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互,并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估,定量和定性结果证实了我们提出方法的有效性。
Oct, 2023
本文研究了在移动设备上的视频动作识别任务,提出了一个基于 MobileNetV2 和 Temporal Trilinear Pooling (TTP) 模块的方法,使用多种模态处理压缩视频,并进行了效率测试,结果表明我们的模型在移动设备上可以实现 40FPS 的识别速度,且在模型大小和时间消耗方面表现优异。
Aug, 2019
通过视觉和语言提示的联合生成模型,对互联网上海量的指示视频进行语义步骤解析,为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。
May, 2016
介绍了一种新颖的行为条件视频生成框架 (ACVG),通过深度双发生器 - 行为者结构探究行为与生成的图像帧之间的关系,以机器人的行为为条件生成视频序列,从而在动态环境中探索和分析视觉和行为如何相互影响。通过对室内机器人运动数据集进行全面实证研究和详细消融研究,评估了该框架在长期视频生成中的有效性与其他最先进的框架的比较。
Apr, 2024