Jun, 2024

S3:一种简单而强大的样本有效的多模态对话系统

TL;DR我们提出了一个在多模态对话任务中具有潜在简单但强大效果的基线系统 S3 模型,在 MMMU 和 AI Journey Contest 2023 两个激动人心的榜单上取得了接近最先进的成果。该系统基于一个预训练的大型语言模型,图像和音频的预训练模态编码器以及一个可训练的模态投影器。所提出的用于训练这种架构的有效数据混合表明,基于强大的语言模型并在少量多模态数据上训练的多模态模型可以高效地执行多模态对话任务。