BriefGPT.xyz
大模型
Ask
alpha
关键词
3d vision-language models
搜索结果 - 3
三维视觉语言模型真正理解自然语言吗?
3D-VL 模型面临语言输入样式的敏感性,本研究通过提出一个语言鲁棒性任务和设计 3D 语言鲁棒性数据集评估现有模型的性能,在各种 3D-VL 任务中发现所有模型性能显著下降。现有模型存在脆弱和偏置的融合模块,缺乏多样性的现有数据集是其根源
→
PDF
3 months ago
FMGS: 嵌入式基础模型的整体三维高斯重叠投射用于全景三维场景理解
通过将视觉语言嵌入模型与三维高斯喷洒算法相结合,本研究提出了一种高效的三维视觉语言模型重建方法,通过渲染从三维模型生成的特征映射,实现了高质量的渲染和快速训练,并引入了像素对齐损失来保证渲染的语义一致性,取得了显著的多视图语义一致性,为增强
→
PDF
6 months ago
LL3DA:面向全方位三维理解、推理和规划的视觉交互指令调整
LL3DA 是一种大型语言 3D 助手,可以直接接收点云输入,并对文本指令和视觉提示进行回应,可以帮助大型多模态模型更好地理解人类互动,并在杂乱的 3D 场景中消除歧义。实验证明,LL3DA 在 3D 密集字幕和 3D 问答方面取得了显著成
→
PDF
7 months ago
Prev
Next