Feb, 2024

CREMA: 多模态组合视频推理的高效模块适应与融合

TL;DR本文提出了一种高效的模态融合框架 CREMA,用于将任何新的模态注入视频推理,通过使用现有的预训练模型增强给定视频的多个信息模态,然后引入一个与每个可访问模态相关的多个参数高效模块的查询转换器,将不同的数据类型整合到响应产生的 LLM 令牌嵌入空间,同时提出了一个压缩多模态查询的融合模块,在维持 LLM 的计算效率的同时结合额外的模态,通过充分验证了在视频 - 3D、视频 - 音频和视频 - 语言推理任务上的性能,显示了优于其他强大的多模态 LLMs(包括 BLIP-2、3D-LLM 和 SeViLA)的表现,并使用了 96% 较少的可训练参数。