CLIP-Motion:使用连续观测学习机器人动作的奖励函数
该研究通过使用未标注的人类操作视频来学习机器人操作策略的任务不可知奖励函数,并采用时间对比学习得到的嵌入空间中的距离以及直接时间回归来评分从而实现在各种任务上重复使用一个模型,从而能够在多个操纵任务上加速训练,而无需从机器人环境中获得先验数据,也无需使用特定于任务的人类演示数据。
Nov, 2022
通过对视频帧中的运动线索进行建模、利用动态提示学习器生成与人类动作相关的运动感知提示并通过多模态交流模块实现协作学习,我们的方法在少样本学习和零样本学习中具有显著优势,并在少参数和额外计算成本的条件下实现了竞争性性能。
Aug, 2023
RoboCLIP 是一种在线模仿学习方法,通过使用单个示例(视频演示或任务的文本描述)来生成奖励,克服了对大量领域内专家演示的需求,并且还能利用领域外的示例来生成奖励,无需手动设计奖励函数。使用 RoboCLIP 奖励进行训练的强化学习代理在下游机器人操作任务上表现出 2-3 倍的零 - shot 性能,仅使用一个视频 / 文本示例。
Oct, 2023
通过利用在预训练的视觉 - 语言模型中内嵌的隐式适应性知识,本文提出了 AffordanceCLIP 方法,克服了传统监督学习方法和弱监督方法在适应性分割方面的限制,并实现了与专门训练方法相竞争的零样本性能,同时为模型的功能性推理打开了新的视角。
Apr, 2024
本研究提出了一种基于视觉 - 文本匹配的多模态学习框架,通过对标签文本的语义信息进行建模,并提出了一种新的 “预训练、提示和微调” 范例,以实现零样本行动识别。实验结果表明,ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力,而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。
Sep, 2021
最近,通过学习特征可辨性和设计合适的比较方法,少样本动作识别取得了显著进展。我们提出了一种 Consistency Prototype 和 Motion Compensation Network(CLIP-CP$M^2$C)来解决视觉、标签和运动特征的限制,并通过广泛实验验证了该方法的优越性能。
Dec, 2023
本文提出了一种新的机器人操作方法,该方法利用了物体本身的运动学习,通过使用物理模拟器中的对象运动策略生成辅助奖励,称为模拟运动演示奖励(SLDRs),该方法可以在不需要人类演示或昂贵成本的情况下,通过强化学习来掌握机器人操作技能,从而实现多物体堆放和非刚性物体操作等任务的更高成功率和更快学习。
Oct, 2019
本文提出了一种基于 CLIP 的内在奖励,该奖励可以驱动强化学习任务中的探索,进而帮助学习者实现对世界的语义理解与认知,实验表明该方法在处理稀疏奖励、复杂的过程生成任务上比现有方法表现更优异。
Nov, 2022
本文提出了一种名为 MA-CLIP 的新方法,旨在通过添加轻量级适配器来适应 CLIP 进行少样本动作识别,从而解决传统方法中的参数调优和时间建模的问题。
Aug, 2023