BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-modal transformer-based architectures
搜索结果 - 1
Multi-CLIP:针对 3D 场景中问答任务的对比视觉语言预训练
本研究提出一种名为 MULTI-CLIP 的 3D 预训练视觉语言模型,可有效提高现有 3D 视觉问答任务的表现并构建出具有良好结构的 3D 场景特征空间。
PDF
a year ago
Prev
Next