Mar, 2024

点击抓取:通过视觉扩散描述符实现零射击精确操控

TL;DR利用网络训练的文本到图像扩散生成模型,在无样本情况下对细粒度部件描述符进行准确操作,通过将问题框架化为密集语义部件对应任务,返回用于操作特定部件的夹爪位姿,无需手动示教,验证了该方法在真实世界的桌面场景中的实验,证明了其推进语义感知机器人操作的潜力。