May, 2024

隐式多模态对齐:关于将冻结的 LLM 泛化到多模态输入

TL;DR大型语言模型(LLMs)对多模态任务表现出令人印象深刻的性能,然而,我们仍然缺乏对其成功的适当理解。本研究将冻结的 LLMs 公开显示为图像、视频、音频和文本输入,分析其内部表示以了解其在文本输入之外的泛化能力。