关于视觉-动作预训练数据集的客观观察
研究表明,预训练的视觉表示方法对于控制任务的学习同样有效,甚至在某些情况下可以优于基于真实状态的表示方法,而这些预训练模型仅需要使用标准视觉数据集,而不需要在目标环境中使用真实数据。
Mar, 2022
本文表明,来自真实世界图像的自监督视觉预训练对于从像素学习运动控制任务是有效的;为了加快像素学习的进展,本文还贡献了一套手工设计的基准任务,其中包括运动、场景和机器人等方面的变化。通过防冻度量的视觉编码器和强化学习,我们实现了与带标签、状态估计或专家演示相比高达80%的绝对成功率,有时甚至能与理论最好状态匹敌;还发现,来自YouTube或自我中心视频等野外图像,对于各种操作任务的视觉表现比ImageNet图像更好。
Mar, 2022
该研究是关于预先训练视觉表示(PVRs)或视觉基础模型在具体应用中的最全面的实证研究。研究发现,尽管数据规模和多样性通常能提高性能,但是没有任何一种PVR可以普遍占优。然而,通过对VC-1进行特定任务适应性的调整,可在CortexBench的所有基准测试中实现与最佳结果相当或更好的性能表现。
Mar, 2023
该论文提出了一种自监督的感知动作预训练方法,称为RPT,使用转换器操作传感动作令牌的序列,能够处理latent视觉表示,能够扩展到10倍大型模型,并可在真正的机器人上实现10 Hz的推断。
Jun, 2023
本研究通过使用预训练表示来改善策略学习中的范畴化概括能力,提出了一种新的双流架构SpawnNet,通过将预训练的多层表示融合到另一个网络中学习鲁棒策略,实验证明了在模仿学习环境中相较以往方法具有显著更好的范畴化概括。
Jul, 2023
通过对15个预训练视觉模型的性能比较,发现视觉出现分割能力是ViT模型在分布偏移下的强预测因子。在十个任务中进行广泛测试后,分割分数在离线训练和50次演示后预测了真实世界的性能。
Nov, 2023
本研究解决了现有模仿学习方法在处理高维视觉观测中所需大量专家示例的问题。提出的DynaMo方法通过自监督学习有效地从专家示例中学习视觉表征,并显著提升了下游模仿学习的性能,特别是在无需使用任何领域外数据的情况下。
Sep, 2024
本研究解决了当前机器人模型训练中的异质性问题,通过在不同的机器人数据和任务上进行异质预训练,提出了一种新的Heterogeneous Pre-trained Transformers (HPT)架构。该方法有效对齐了不同机器人身体姿态的输入,从而在多个任务中显著提高了策略的表现,尤其是在未见任务上的效率超过20%。
Sep, 2024
本研究解决了机器人学习中缺乏大规模领域内数据集的问题。我们提出了一种名为操作中心化表示(MCR)的框架,通过结合视觉特征和任务动态信息,显著提高了机器人操作任务的成功率。实验证明,MCR在模拟和现实任务中的性能提高超过14%和76%,展示了其在高效学习中的潜在影响。
Oct, 2024
本研究解决了机器人学习中缺乏大规模领域特定数据集的问题。提出了一种新的操作中心表示(MCR)框架,通过捕捉操作任务的视觉特征和动态信息来提高表现,实验证明MCR在多个模拟领域的任务中表现超越基线方法14.8%,并在现实世界任务中提升性能76.9%。
Oct, 2024