BriefGPT.xyz
Ask
alpha
关键词
cognitive visual-language mapper
搜索结果 - 1
认知视觉语言映射器:通过增强视觉知识对齐推进多模态理解
在当前大型多模态模型的研究中,我们评估和重新思考了广泛使用的视觉语言投射方法(如 Q-former 或 MLP),发现它们侧重于图像 - 文本描述的对齐,但忽略了视觉知识维度的对齐,即将视觉元素与相关知识连接起来。本文主要探索通过视觉语言知
→
PDF
4 months ago
Prev
Next