BriefGPT.xyz
大模型
Ask
alpha
关键词
3d vision-language grounding
搜索结果 - 2
SceneVerse:面向基于场景的三维视觉语言学习的规模化
通过系统性地将 3D 视觉语言学习在室内环境中进行有序提升,本研究旨在解决 3D 视觉语言面临的三个主要挑战,包括复杂的 3D 场景、缺乏数据支持和缺乏统一的学习框架,并通过引入包含约 68K 个 3D 室内场景的场景语料库 SceneVe
→
PDF
5 months ago
3D-VisTA: 预训练的 Transformer 用于 3D 视觉和文本对齐
提出了 3D-VisTA,一个用于 3D 视觉和文本对齐的预训练 Transformer 模型,可轻松适应各种下游任务,通过在 ScanScribe 数据集上进行预训练,获得了在各种 3D-VL 任务上的最先进结果,同时展示了出色的数据效率
→
PDF
a year ago
Prev
Next