Aug, 2023

多模态大型语言模型在预测语言处理中体现人类式的视觉 - 语言整合的证据

TL;DR大型语言模型(LLMs)的高级语言处理能力引发了关于它们是否能够复制类似人类认知过程的能力的讨论,本文通过研究多模态语言模型(mLLMs)中的视觉关注权重,发现与人类一样,mLLMs 中基于多模态输入的预测性语言处理过程也会受到视觉特征的注意引导。