BriefGPT.xyz
大模型
Ask
alpha
关键词
grounded learning
搜索结果 - 2
SceneVerse:面向基于场景的三维视觉语言学习的规模化
通过系统性地将 3D 视觉语言学习在室内环境中进行有序提升,本研究旨在解决 3D 视觉语言面临的三个主要挑战,包括复杂的 3D 场景、缺乏数据支持和缺乏统一的学习框架,并通过引入包含约 68K 个 3D 室内场景的场景语料库 SceneVe
→
PDF
5 months ago
ACL
UNIMO-2: 端到端的统一视觉语言基础学习
本文提出了一种联合学习视觉、文本和不对齐图像和文本语料库之间的符号对齐的端到端 UNIMO-2 统一模态预训练框架,采用 “基础学习” 方案,成功地提高了一些跨模态任务的性能与视觉和文本语义对齐。
PDF
2 years ago
Prev
Next