May, 2024

将通用预训练的视觉 Transformer 重新塑造为面向对象的场景编码器,用于操作策略

TL;DR通过使用预训练图像表示编码器和视觉转换器,Scene Objects From Transformers (SOFT) 构建了一个对象中心化嵌入,无需进一步训练即可优化机器人的操作任务。