BriefGPT.xyz
Ask
alpha
关键词
image foundation model
搜索结果 - 1
CVPR
MoST: 多模态场景编码用于动作预测
通过将视觉世界划分为场景元素,并利用预训练的图像模型和 LiDAR 神经网络以开放词汇的方式编码所有场景元素,我们提出了一种能够高效编码多帧多模态观察的方法,并且在 Waymo Open Motion 数据集上的实验证明了我们的方法明显优于
→
PDF
2 months ago
Prev
Next