Nov, 2023
LION:赋能双层视觉知识的多模态大语言模型
LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge
Gongwei Chen, Leyang Shen, Rui Shao, Xiang Deng, Liqiang Nie
TL;DR多模态大型语言模型(MLLMs)借助视觉知识的两个层面提升了理解和感知多模态信号的能力。通过逐步整合细粒度的空间感知视觉知识和软提示高级语义视觉证据的方法,我们的模型在多个多模态基准测试中展示了过人的优越性能。