Feb, 2023

语言远非万能:将感知与语言模型对齐

TL;DR本文介绍了 Kosmos-1,它是一个多模态大语言模型(MLLM),可以感知一般模态,可以在上下文中学习,可以零 - shot 地遵循说明,并在各种任务上取得了卓越的性能,包括语言理解、生成,多模态对话,图像字幕,视觉问答等,并证明 MLLM 可以从跨模态转移中受益,即从语言到多模态和从多模态到语言。此外,我们还介绍了 Raven IQ 测试数据集,用于诊断 MLLM 的非语言推理能力。