May, 2023

MultiModal-GPT: 一个视觉语言模型,用于人类对话

TL;DR该研究提出了名为 MultiModal-GPT 的视觉与语言模型,可以利用证据和语言数据对多模式指令进行调整,为模型的不断对话提供支持,同时提出了联合培训的观点,并通过各种演示展示了 MultiModal-GPT 的连续对话能力。