Oct, 2023

大型语言模型也能分享图片!

TL;DR该研究探讨了大型语言模型(LLMs),如 InstructGPT,ChatGPT 和 GPT-4,在零样本设置中的图像共享能力,提出了一个两阶段框架,使 LLMs 能够预测潜在的图像共享转向并生成相关的图像描述,通过广泛的实验证明了 GPT-4 在零样本提示下实现了最佳性能,此外,我们发现了零样本提示中的紧密共享能力,证明了我们框架的两个阶段中基于限制的提示的有效性。基于该框架,我们利用 Stable Diffusion 在预测的转向处生成图像,即 PhotoChat ++,据我们所知,这是第一项在没有视觉基础模型的零样本设置中评估 LLMs 图像共享能力的研究。发表后将发布源代码和数据集。