May, 2023

i-Code V2:基于视觉、语言和语音数据的自回归生成框架

TL;DR文章提出了 i-Code V2,这是第一个能够从任何视觉、语言和语音数据组合中生成自然语言的模型,它通过利用最先进的单模态编码器将各类模态组合并映射到一个共享表征空间,并使用自回归解码器从这些表征中生成语言词汇。i-Code V2 在大量数据集上进行端到端预训练,通过文本补全目标实现泛化在任意模态组合上,展示出了多模态预训练在各种任务和信号方面的强大性能。