Aug, 2023
预训练纯文本Transformer中的多模态神经元
Multimodal Neurons in Pretrained Text-Only Transformers
TL;DR通过向文本转换器添加视觉信息,我们研究了冻结的文本转换器如何使用自监督视觉编码器和单一线性投影将一种模态的学习表示迁移到另一种模态,在转换器内部发现了模态之间的转换,并通过识别多模态神经元和解码它们注入模型剩余流的概念来验证其作用。通过一系列实验证明多模态神经元在特定的视觉概念上操作,并对图像字幕生成产生系统性的因果影响。