BriefGPT.xyz
大模型
Ask
alpha
关键词
multimodal vision
搜索结果 - 2
多模态视觉融合的解读
通过提供一个分析框架和新的度量标准,我们研究了多模态视觉社区的解释。通过实验,我们调查了不同模态之间的一致性和特殊性,模态内的演化规则,以及优化多模态模型时使用的协作逻辑,并揭示了一些重要发现,这些发现有助于重新思考流行的多模态视觉融合策略
→
PDF
10 months ago
ACL
跨语言视觉问答
本文提出了 xGQA,一个用于跨语言视觉问答任务的新的多语言评估基准,并使用适配器方法将多模型变换器模型扩展为多语言模型,结果表明简单的跨语言模型转移会导致多语言多模态失配,需要更复杂的方法来进行跨语言视觉和多语言语言建模
PDF
3 years ago
Prev
Next