Oct, 2023

视频变换器在遮挡下的应用:物理和背景属性对机器人操纵的大模型的影响

TL;DR通过研究物体的物理属性(颜色、摩擦系数、形状)和背景特征(静态、动态、背景复杂度)对视频变换器在遮挡下的轨迹预测任务中的性能影响,本研究旨在调查物理属性和背景特征如何影响模型性能,哪些属性对模型的泛化性能最具影响力,以及大型变换器模型在单个任务中是否存在数据饱和点。通过提供一种真实世界的基于视频的机器人推动数据集 OccluManip,其中包括 46 万次关于不同物理属性和不同背景的一致记录,以及总计 1278 小时的高质量视频和目标物体轨迹,满足不同时间要求的任务。此外,提出了一种基于通用视频变换器的网络 Video Occlusion Transformer (VOT),在 OccluManip 提供的所有 18 个子数据集中平均精度达到 96%。