V2CNet:视频翻译机器人操作指令的深度学习框架
本篇论文提出直接利用统一深度神经网络将视频转换为句子的方法,并通过将知识从含标记种类超过 120 万张图像和带字幕的超过 100,000 张图像中迁移而创建具有大型词汇库的开放域视频句子描述。通过与语言生成度量,主语,动词和宾语预测准确度以及人的评估进行比较,证明本方法的有效性。
Dec, 2014
通过观察人类行为并将其翻译成可执行的动作,本研究介绍了一种基于视频学习的机器人框架 Vid2Robot,它通过训练机器人模型利用人类视频和机器人轨迹数据集进行任务执行。该模型利用交叉注意力机制将提示视频特征融合到机器人的当前状态中,并生成能够模仿所观察任务的适当动作,大幅提升执行效果,同时显示着在真实世界应用中的潜力。
Mar, 2024
本文提出了一种基于 Transformer 的视频识别框架 VTN,它相比于传统的 3D ConvNets,通过整个视频序列的注意力机制实现动作分类,并在训练和推断时分别快 16.1 倍和 5.1 倍,同时在 Kinetics-400 数据集上获得了有竞争力的结果,表明了精度和推断速度之间的权衡。
Feb, 2021
通过使用具有控制网络的扩散模型,在给定提示和输入视频的条件下,我们提出了一种新的运动引导视频到视频转换框架 VideoControlNet,以生成各种视频。通过使用运动信息来防止冗余区域的再生成以保持内容一致性。
Jul, 2023
本文提出了一种可控的文本到视频模型,名为 Video-ControlNet,它可以生成由控制信号(如边缘或深度图)条件的视频。该模型采用了一种新的残差噪声初始化策略来实现输入视频的运动先验,并生成具有细粒度控制的高质量和连贯视频。
May, 2023
通过在互联网规模的数据上训练视觉语言模型,将其直接融入端到端的机器人控制中,提高泛化能力和实现新兴的语义推理。我们提出了一种简单通用的方法,在模型训练集中直接将行动表现为文本标记,将自然语言回答和机器人行动合并到同一个格式中,从而实现了单一端到端训练模型的目标。我们将这类模型称为视觉语言行动模型(VLA),并以 RT-2 为例进行了实例化。广泛的评估结果表明,我们的方法可以得到性能优越的机器人策略,并使 RT-2 在互联网规模的训练中获得一系列新兴能力。这包括对新对象的显著改进的泛化能力,解释不在机器人训练数据中的命令(比如将物体放在特定的编号或图标上)的能力,以及对用户指令做出初步推理的能力(比如选择最小或最大的物体,或者离另一个物体最近的物体)。我们进一步说明了通过思维链式推理,RT-2 可以进行多阶段的语义推理,例如找到作为非正式锤子使用的物体(一块石头),或者适合疲劳人群的饮料类型(一种能量饮料)。
Jul, 2023
本文提出了一种新的混合时态卷积和循环神经网络 (TricorNet) 模型,其具有编码器 - 解码器结构,通过编码器捕捉不同动作的局部运动变化,解码器能够学习和记忆长期的动作依赖性,该模型在三个行动分割数据集上的实验结果表明,在视频序列标注方面,所提出的模型优于现有技术水平。
May, 2017
Shortcut-V2V 是一个适用于视频到视频翻译的通用压缩框架,通过近似当前帧的中间特征,避免对每个相邻视频帧进行完整推理,利用 AdaBD 模块适应性地融合和变形相邻帧的特征,以实现更准确的中间特征预测,除能达到原始模型相当的性能外,还能在测试时节省 3.2-5.7 倍的计算成本和 7.8-44 倍的内存。
Aug, 2023
提出了一种名为 T-CNN 的端到端深度网络,用于进行视频中的行为检测,该网络通过 3D 卷积特征识别并定位行为,能够对修剪和未修剪视频中的行为进行分类和定位。
Mar, 2017