BriefGPT.xyz
Ask
alpha
关键词
large visual language model
搜索结果 - 2
Agent3D-Zero:一种用于零样本三维理解的智能体
通过引入 Agent3D-Zero 框架,我们能够以零样本学习的方式处理三维场景理解问题,通过选择和分析一系列视点来促进三维理解,并利用自定义的视觉提示来增强模型的能力。大量实验证明了该框架在理解各种以前未见的三维环境方面的有效性。
PDF
4 months ago
LMEye:用于大型语言模型的交互式感知网络
本文提出了一种名为 LMEye 的交互感知网络,旨在提高 Large Visual Language Model 的图像理解精度。LMEye 网络包括一个静态视觉映射网络和一些负责获取请求、分解图像特征和传输交错信息的线性层。通过在多模态问
→
PDF
a year ago
Prev
Next