BriefGPT.xyz
大模型
Ask
alpha
关键词
vision perception
搜索结果 - 2
目视与思考:虚拟环境中的具身智能体
STEVE 是一个在 Minecraft 虚拟环境中基于大型语言模型的综合和具有远见的具象代理,其三个关键组成部分是视觉感知、语言指导和代码动作,通过视觉信息解释、迭代推理和可执行技能行为生成,STEVE 在 Minecraft 环境中实现
→
PDF
7 months ago
基于视觉的三视角视图的 3D 语义占用预测
采用鸟瞰图(BEV)描述自动驾驶中的三维场景难以描绘细粒度的三维结构,因此我们提出了三面图(TPV)表示法,并使用基于注意力机制的 TPV 编码器实现了显著的提升。模型可以通过稀疏监督有效预测语义占用,仅使用相机输入在 LiDAR 分割任务
→
PDF
a year ago
Prev
Next