关于视觉-动作预训练数据集的客观观察

Oct, 2023

关于视觉-动作预训练数据集的客观观察

An Unbiased Look at Datasets for Visuo-Motor Pre-Training

Sudeep Dasari, Mohan Kumar Srirama, Unnat Jain, Abhinav Gupta

TL;DR通过对机器人的预训练数据集进行集中分析，我们发现常规视觉数据集对于视觉-运动表示学习是竞争力强的选择，此外，预训练数据集的图像分布比其规模更为重要，同时简单的正规化策略可以显著改善真实世界策略学习。

Abstract

visual representation learning hold great promise for robotics, but is severely hampered by the scarcity and homogeneity of robotics datasets. Recent works address this problem by pre-training visual representati

发现论文，激发创造

预训练视觉模型对控制的有效性不足为奇

研究表明，预训练的视觉表示方法对于控制任务的学习同样有效，甚至在某些情况下可以优于基于真实状态的表示方法，而这些预训练模型仅需要使用标准视觉数据集，而不需要在目标环境中使用真实数据。

Mar, 2022

面具视觉预训练用于运动控制

本文表明，来自真实世界图像的自监督视觉预训练对于从像素学习运动控制任务是有效的；为了加快像素学习的进展，本文还贡献了一套手工设计的基准任务，其中包括运动、场景和机器人等方面的变化。通过防冻度量的视觉编码器和强化学习，我们实现了与带标签、状态估计或专家演示相比高达80%的绝对成功率，有时甚至能与理论最好状态匹敌；还发现，来自YouTube或自我中心视频等野外图像，对于各种操作任务的视觉表现比ImageNet图像更好。

Mar, 2022

寻找一个为具身智能而设计的人工视皮层的进展

该研究是关于预先训练视觉表示（PVRs）或视觉基础模型在具体应用中的最全面的实证研究。研究发现，尽管数据规模和多样性通常能提高性能，但是没有任何一种PVR可以普遍占优。然而，通过对VC-1进行特定任务适应性的调整，可在CortexBench的所有基准测试中实现与最佳结果相当或更好的性能表现。

Mar, 2023

机器人传感运动预训练学习

该论文提出了一种自监督的感知动作预训练方法，称为RPT，使用转换器操作传感动作令牌的序列，能够处理latent视觉表示，能够扩展到10倍大型模型，并可在真正的机器人上实现10 Hz的推断。

Jun, 2023

SpawnNet: 从预训练网络中学习通用可视动作技能

本研究通过使用预训练表示来改善策略学习中的范畴化概括能力，提出了一种新的双流架构SpawnNet，通过将预训练的多层表示融合到另一个网络中学习鲁棒策略，实验证明了在模仿学习环境中相较以往方法具有显著更好的范畴化概括。

Jul, 2023

预训练视觉表示对稳健操控的成功因素

通过对15个预训练视觉模型的性能比较，发现视觉出现分割能力是ViT模型在分布偏移下的强预测因子。在十个任务中进行广泛测试后，分割分数在离线训练和50次演示后预测了真实世界的性能。

Nov, 2023

动态模型：用于视觉-运动控制的领域内动态预训练

本研究解决了现有模仿学习方法在处理高维视觉观测中所需大量专家示例的问题。提出的DynaMo方法通过自监督学习有效地从专家示例中学习视觉表征，并显著提升了下游模仿学习的性能，特别是在无需使用任何领域外数据的情况下。

Sep, 2024

利用异质预训练变换器扩展自我感知与视觉学习

本研究解决了当前机器人模型训练中的异质性问题，通过在不同的机器人数据和任务上进行异质预训练，提出了一种新的Heterogeneous Pre-trained Transformers (HPT)架构。该方法有效对齐了不同机器人身体姿态的输入，从而在多个任务中显著提高了策略的表现，尤其是在未见任务上的效率超过20%。

Sep, 2024

机器人预训练机器人：基于大规模机器人数据集的操作中心化机器人表示

本研究解决了机器人学习中缺乏大规模领域内数据集的问题。我们提出了一种名为操作中心化表示（MCR）的框架，通过结合视觉特征和任务动态信息，显著提高了机器人操作任务的成功率。实验证明，MCR在模拟和现实任务中的性能提高超过14%和76%，展示了其在高效学习中的潜在影响。

Oct, 2024

机器人预训练机器人：基于大规模机器人数据集的操作中心机器人表示

本研究解决了机器人学习中缺乏大规模领域特定数据集的问题。提出了一种新的操作中心表示（MCR）框架，通过捕捉操作任务的视觉特征和动态信息来提高表现，实验证明MCR在多个模拟领域的任务中表现超越基线方法14.8%，并在现实世界任务中提升性能76.9%。

Oct, 2024