AlignedCut:脑引导的通用特征空间上的视觉概念发现
本研究介绍了一种基于高质量预训练多模态表示利用功能磁共振成像技术探索人类大脑微观语义网络的方法,并描述了该方法在检测面孔、身体和空间等重要语义概念的表现及其在个体参与者中的应用。
Jun, 2023
我们开发了一种工具,通过将大型预训练视觉模型映射到大脑上,从而揭示其隐藏在内部的信息。我们的创新提出了一种令人惊讶的使用大脑编码的方法:预测大脑在图像刺激下的功能磁共振成像测量。我们报告了两个发现:首先,对于空间、层级、尺度和通道的大脑和深度网络特征之间的显式映射至关重要。这种映射方法,FactorTopy,可应用于任何深度网络;通过它,我们可以将网络映射到大脑上(真实可视化)。其次,我们的可视化结果显示了不同的训练方法的重要性:它们导致了层次结构和缩放行为上显著的差异,随着更多的数据或网络容量增加而增长。它还提供了微调的见解:在适应小数据集时,预训练模型如何改变。我们的方法很实用:只需 3000 个图像就足以学习网络到大脑的映射。
Dec, 2023
理解深度网络模型在其学习到的表示中捕捉到的内容是计算机视觉中的一个基本挑战。我们提出了一种新的方法来理解这样的视觉模型,即视觉概念连接图(VCC),它以完全无监督的方式发现人类可解释的概念及其在不同层之间的连接。我们的方法同时揭示了网络结构的细粒度概念、所有层之间的连接权重,并且适用于网络结构的全局分析(例如,分层概念组件的分支模式)。此前的工作揭示了如何从单个层提取可解释的概念并检查它们对分类的影响,但未提供在整个网络架构上进行多层概念分析的方法。定量和定性的实证结果显示了 VCC 在图像分类领域的有效性。此外,我们利用 VCC 来进行故障模式调试,以揭示深度网络中错误产生的位置。
Apr, 2024
通过训练多模态(自然语言和图像)神经网络架构(CLIP),我们使用一种新颖的 DBSCAN 聚类算法的适应版来聚类这些参与者特定对比模型的参数,揭示了我们称之为共享解码概念(SDCs)的在多个参与者中通过共同一组体素解码的 CLIP 空间中的聚类。通过分析与每个 SDC 聚类最相关和最不相关的图像,我们对每个 SDC 的语义属性有了更深入的了解。因此,我们的对比学习方法通过利用多模态神经网络表示和一种新颖的聚类算法的适应版更好地描述了大脑中新的和现有的视觉 - 语义表示。
May, 2024
本文提出了一种跨模态的大脑解码模型 BrainCLIP,通过将图像和文本监督在语义空间中相结合,将 fMRI 模式转换为 CLIP 嵌入空间,实现了自然图像的高级特征还原和语义解码。
Feb, 2023
该研究提出了一种新的方法,研究使用与 COCO、ImageNet 和 SUN 等视觉数据集对应的 fMRI BOLD 时间序列构建的视觉网络的拓扑特征差异。通过计算每个视觉网络代表 COCO、ImageNet 和 SUN 的 0 维和 1 维持续图,并提取拓扑持久图的适当特征,进行 K-means 聚类。将提取的 K-means 聚类特征输入到一种新的深度混合模型,对这些视觉网络进行分类,可达到 90% 至 95% 的准确率。这种对不同视觉数据集进行视觉网络分类的研究对于理解视觉很重要,因为它捕捉到了在感知具有不同上下文和复杂性的图像时 BOLD 信号的差异。此外,该研究揭示了与每个数据集相关的视觉网络的独特拓扑模式,这可能为诊断视觉失认症或面孔失认症等视觉处理障碍,并跟踪视觉认知变化的发展未来的神经影像生物标记物的发展提供了潜在的线索。
Nov, 2023
通过使用具有视觉和上下文输入的多模态模型 VISION,我们成功预测了人类大脑对自然图像的功能性磁共振成像(fMRI)扫描反应,其准确度超过了现有技术性能 45%,并揭示了不同视觉区域的表征偏差,生成了可实验检验的假设,并形成了可解释的指标将这些假设与皮层功能相关联,为设计和实现视觉皮层功能分析带来了降低成本和时间负担的可能性。通过计算模型的进化,我们的工作表明可能揭示出对视觉皮层的基本理解,并提供可靠的脑机接口的可行方法。
Sep, 2023