Jun, 2023
SPAE:使用固定的 LLMs 进行多模态生成的语义金字塔自编码器
SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs
Lijun Yu, Yong Cheng, Zhiruo Wang, Vivek Kumar, Wolfgang Macherey...
TL;DR本文介绍了语义金字塔自编码器(SPAE),它使得具有非语言模式(如图像或视频)的被冻结的 LLMs 能够执行理解和生成任务。我们的方法通过在冻结的 PaLM 2 和 GPT 3.5 上进行多样化的图像理解和生成任务中上下文学习实验证明,是首次成功尝试使冻结的 LLM 生成图像内容,并在相同的环境中在图像理解任务中表现优于现有技术 25%以上。