BriefGPT.xyz
Ask
alpha
关键词
discriminative cross-modal reasoning
搜索结果 - 1
X-InstructBLIP: 一种将 X-Modal 指导感知表示与 LLMs 和新兴的跨模态推理对齐的框架
我们在这篇论文中介绍了一个简单而有效的跨模态框架,利用现有的大型语言模型,在 2D 视觉推理任务中通过将视觉编码器与最先进的语言模型对齐,展现了通用功能。我们通过收集高质量的调整数据,自动和可扩展地收集音频和 3D 方面 QA 样本,以便实
→
PDF
7 months ago
Prev
Next