Mar, 2022

基于自监督预训练 Vision Transformer 的单目机器人导航

TL;DR使用自监督方法预训练的 Vision Transformer,成功地在使用 70 个训练图像的 Duckietown 环境中训练了一个粗略的图像分割模型,其推理分辨率可以调整以平衡预测粒度和实时感知约束,并用作简单而强大的视觉伺服代理的骨干,用于差分驱动移动机器人的车道跟踪和障碍物回避两个任务。