Feb, 2024

多语言大型语言模型是否能够进行上下文中的文本到图像学习?

TL;DR将大型语言模型从文本到多模态进化为多模态大型语言模型(MLLMs),并扩展了上下文学习 (ICL) 到多模态环境。本研究中提出以T2I-ICL为任务的新的benchmark数据集CoBSAT,通过与六个最先进的MLLMs算法的对比表明了T2I-ICL的困难及其挑战,并探索了fine-tuning和Chain-of-Thought prompting等策略以实现显著改进。