BriefGPT.xyz
Ask
alpha
关键词
multi-modal scenarios
搜索结果 - 2
多模态自回归建模基于视觉单词
成功进行多模态自回归建模,并首次提出了视觉词概念,将视觉特征映射到 LLMs 词汇的概率分布,为视觉建模提供了监督信息。通过对 5 个 VQA 任务和 4 个基准工具包的实验结果和消融研究的验证,证明了我们提出方法的强大性能。
PDF
4 months ago
SimMMDG: 一个简单而有效的多模态领域泛化框架
通过在多模态情境中将特征分为模态特定和模态共享组件,并运用监督对比学习对模态共享特征施加距离约束,以促进多样性,并引入跨模态转换模块来规范学习特征,以达到领域泛化的目标。
PDF
8 months ago
Prev
Next