Jun, 2023

SPAE:使用固定的 LLMs 进行多模态生成的语义金字塔自编码器

TL;DR本文介绍了语义金字塔自编码器(SPAE),它使得具有非语言模式(如图像或视频)的被冻结的 LLMs 能够执行理解和生成任务。我们的方法通过在冻结的 PaLM 2 和 GPT 3.5 上进行多样化的图像理解和生成任务中上下文学习实验证明,是首次成功尝试使冻结的 LLM 生成图像内容,并在相同的环境中在图像理解任务中表现优于现有技术 25%以上。