Aug, 2023

预训练纯文本 Transformer 中的多模态神经元

TL;DR通过向文本转换器添加视觉信息,我们研究了冻结的文本转换器如何使用自监督视觉编码器和单一线性投影将一种模态的学习表示迁移到另一种模态,在转换器内部发现了模态之间的转换,并通过识别多模态神经元和解码它们注入模型剩余流的概念来验证其作用。通过一系列实验证明多模态神经元在特定的视觉概念上操作,并对图像字幕生成产生系统性的因果影响。