BriefGPT.xyz
Ask
alpha
关键词
3d-vla
搜索结果 - 2
3D-VLA:一个基于三维视觉 - 语言 - 动作的生成式世界模型
提出了一种基于 3D 感知、推理和行动的生成世界模型的 3D-VLA 模型,通过引入一系列交互令牌与具体环境进行交互,训练一系列融入大规模 3D 语言模型的生成扩散模型以预测目标图像和点云,并在大规模数据集上的实验中展示了 3D-VLA 在
→
PDF
4 months ago
基于视觉语义对齐的弱监督三维视觉定位
基于大规模视觉 - 语言模型的弱监督学习方法,利用 2D 图像和 3D 点云之间天然存在的对应关系,无需精细标注的边界框注释,通过学习文本 - 3D 对应,实现文本查询与 3D 目标物的关联。实验结果在 ReferIt3D 和 ScanRe
→
PDF
7 months ago
Prev
Next