BriefGPT.xyz
Ask
alpha
关键词
instruction fine-tuning objectives
搜索结果 - 1
学习定位对象提高视觉语言模型的空间推理能力
将大型语言模型(LLM)整合到视觉领域任务中,从而形成视觉 - LLM(V-LLM),在视觉问答(VQA)等视觉语言任务中实现了卓越的性能。通过基于图像坐标的指导微调目标,我们探索了如何为 V-LLM 注入空间意识,包括发现最佳坐标表示、数
→
PDF
3 months ago
Prev
Next