Jun, 2024

MR-MLLM: 多模态理解和视觉感知的相互增强

TL;DR一个名为 Mutually Reinforced Multimodal Large Language Model (MR-MLLM) 的新框架,通过共享查询融合机制和增强的跨模态集成方法,结合视觉感知和多模态理解,以及混合了感知信息的提示生成机制,提供更准确的多模态解释,在各种多模态理解和视觉感知任务中展现卓越性能。