BriefGPT.xyz
Ask
alpha
关键词
unified visual representation
搜索结果 - 1
视频 LLaVA:前投影前学习统一视觉表示
该研究论文提出了一种统一的大规模视觉语言模型(LVLM),通过在语言特征空间中统一视觉表示,学习多模态交互,从而在图像和视频基准任务上取得了卓越性能。
PDF
8 months ago
Prev
Next