Apr, 2024

多模态上下文学习的关键是什么?

TL;DR通过对大型多模态模型的多模态ICL的研究,我们发现M-ICL主要依赖于文本驱动机制,几乎不受图像模态的影响。当与高级ICL策略(如RICES)一起使用时,M-ICL并不比基于大多数投票的上下文示例简单策略更好,此外,我们还发现了几种M-ICL的偏见和局限性,值得在部署之前考虑。