预训练纯文本 Transformer 中的多模态神经元
通过一系列实验,我们提出了一种基于多模态神经元的新方法,用于识别基于变压器的多模态大型语言模型中的多模态神经元,并通过四个精心设计的定量评估指标突出了多模态神经元的三个关键属性。此外,我们介绍了一种基于识别的多模态神经元的知识编辑方法,用于将一个特定标记修改为另一个指定标记。我们希望我们的发现能够激发对多模态大型语言模型理解机制的进一步解释性研究。
Nov, 2023
本研究旨在探究多模态变形器提供的洞察能力,通过对多模态编码模型进行训练,发现多模态变形器学习了语言和视觉中概念表示的更多对齐性,并且可以有效预测大脑对于故事和电影的 fMRI 反应,从而揭示了多模态处理的潜力和相关的概念表示模型的比较。
May, 2023
我们通过利用脑科学证据来探索预训练的多模态视频变换器模型,发现视觉增强了与语言处理中的遮蔽预测性能,支持模型中交叉模态表示可以受益于个体模态,但未发现与大脑相关的信息,我们展示使用一个需要视觉 - 语言推理的任务,可以改善预训练联合表示的脑对齐效果,这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力,但也表明改善这些模型的脑对齐可能需要新的方法。
Nov, 2023
通过对齐图像和标题数据,我们训练一个视觉编码器将每个图像表示为一系列连续的嵌入,并使用预先训练的冻结语言模型来生成相应的标题,从而将这种少量样本学习能力转移至多模态设置。该系统是一种多模态少样本学习模型,具有学习各种新任务的惊人能力,如用只有少数几个样例进行视觉问答,或者利用外部知识。
Jun, 2021
通过神经元特化,提出一种解决多语言翻译中干扰和促进知识转移的方法,并通过大量实验证明了其相比强基准模型的性能提升以及减少干扰并增加知识转移的效果。
Apr, 2024
通过新的检测方法 - 语言激活概率熵(LAPE),我们研究了大型语言模型中的 Transformer 架构,以确定语言特定的区域,并显示了激活或关闭特定语言神经元对大型语言模型输出语言的可控性。
Feb, 2024
通过研究多模态大型语言模型的内部机制,我们在多语种研究的启发下,发现了多模态大型语言模型中的领域特定神经元,并研究了这些模型如何处理来自不同领域的特征。进一步地,我们提出了一个三阶段的语言模型模块框架,用于处理投影的图像特征,并使用逻辑镜头验证了这一假设。大量实验证明,虽然当前的多模态大型语言模型具备视觉问答的能力,但它们可能没有充分利用领域特定的信息。适当地操纵领域特定的神经元最多会导致 10% 的准确率变化,为未来跨领域、全方位的多模态大型语言模型的发展提供了启示。我们的代码将在论文通知后发布。
Jun, 2024
本文章论述通过训练多模态 transformer 模型,其在语言和视觉任务上的表现证明了其可以学习到丰富的视觉 - 语言表达。其着重于零样本图像检索任务,并研究了三个重要因素:预训练数据、注意机制和损失函数,以评估其对于模型性能的影响。
Jan, 2021
该研究介绍了一种监督式多模态双向 Transformer 模型,该模型融合了文本编码器和图像编码器的信息,并在各种多模态分类基准任务上获得了最先进的性能。
Sep, 2019