Oct, 2023

面向人类的机器人操作的表示学习

TL;DR人类具有内在的通用视觉表征,使其能够高效地探索和与环境进行物体操控。本研究提出使用多任务微调的方式在经过预训练的视觉编码器上学习感知技能,通过任务融合解码器指导表示学习,使得对于所有感知技能来说,学习编码的结构能够更好地表示重要信息,最终为下游的机器人操控任务提供帮助。大量实验验证了任务融合解码器在多个机器人任务和仿真及现实环境中对于三种最先进的视觉编码器(R3M、MVP 和 EgoVLP)的表示进行了改进,提升了下游操控策略的学习性能。