柏拉图表征假设
本文探讨了神经科学和人工智能中所谓的表述问题,并提出了一种基于激活条件的结构推断来解决这个问题的方案,该方案可以用于规划、预测和检测。并通过简单神经网络模型的模拟来说明该方案。
Mar, 2022
通过对三种不同的预训练语言模型和三种计算机视觉模型进行实证研究,本文发现预训练语言模型具有与计算机视觉模型部分同构的表示收敛能力,其中分散性和多义性对语言和视觉空间的对齐性产生影响 。
Feb, 2023
通过研究小规模transformer在重建部分遮蔽的简单蓝图可视场景方面的内在机制,我们发现网络发展了一种包含数据集的所有语义特征的中间抽象表示或抽象,这些抽象表现为低维流形,其中语义相关令牌的嵌入短暂地收敛,从而实现了对下游计算的泛化。我们还引入了一种语言增强架构(LEA),旨在鼓励网络表达其计算过程,发现LEA发展了一种易于解释的以抽象为中心的语言,使我们更容易访问和指导网络的决策过程。
Dec, 2023
通过引入一种新的迭代训练算法,以文化传播作为归纳先验,本研究以视觉代理和语言代理之间的Lewis信号游戏重新定义了视觉-语言对比学习,并通过在训练过程中迭代重置代理权重的方式实现文化传播,使得模型对于合成语言的特性变得更易于学习,达到了在SugarCrepe评测中相比标准CLIP模型分别提升4.7%和4.0%的效果。
Apr, 2024
通过一种新颖的可解释性方法,该论文使用信息论度量量化了神经模型对输入的表示的结构化程度,从而预测模型的泛化能力,并发现模型的代表性和噪声强度有关。此外,研究还研究了模型大小对表示空间结构的影响。
Jun, 2024
确定人类和人工智能之间的相似性和差异是机器学习和认知神经科学的重要目标。通过借鉴认知科学的最新发展,我们提出了一个通用框架,可在人类和深度神经网络 (DNN) 中产生可比较的表示。将此框架应用于人类和自然图像的 DNN 模型,揭示了一个低维度的 DNN 嵌入,包括视觉和语义维度。与人类不同,DNN 显示出视觉特征明显优于语义特征的优势,表明表示图像的策略存在分歧。尽管在硅中的实验显示 DNN 维度具有似乎一致的可解释性,但人类和 DNN 表示之间的直接比较表明它们在处理图像时存在重大差异。通过使表示直接可比较,我们的结果揭示了表示对齐的重要挑战,为提高它们的可比性提供了一种方法。
Jun, 2024
本研究针对深度学习模型的可解释性不足问题,提出基于认知科学的新视角。通过借鉴认知科学的发展,本文阐明了机械可解释性(MI)的目标并提出了一个新的分类法,以促进对深度学习模型的理解。研究表明,将行为研究与内部表示和算法的理解相结合,可以推动人工智能领域的理论进步和实践应用。
Aug, 2024
本研究解决了深度神经网络与人类视觉表征之间的不对齐问题,尤其是在抽象层次上的差异。通过训练一个模仿人类判断的教师模型,并将其结构迁移到预训练的视觉模型中,提出了一种新的方法来改进模型表现与人类更接近的方式。结果表明,这些人类对齐的模型在多种相似性任务和机器学习任务中表现更佳,从而提高了泛化能力和对分布外情况的鲁棒性。
Sep, 2024
本研究解决了神经网络如何与人类认知过程对齐的问题,填补了这一领域的研究空白。通过探讨神经网络表示中的凸性与人机对齐之间的关系,研究发现预训练和微调的视觉变换模型中这两者存在相关性。这一发现提示凸区域与人类定义的类别相一致,潜在地提升了AI系统的可解释性和可靠性。
Sep, 2024
该研究解决了现代学习系统与人类视觉表征之间的关键不对齐问题。通过训练教师模型模仿人类判断并将其结构转移至预训练的视觉基础模型,提出了一种新的方法,从而更准确地近似人类行为和不确定性,提高了机器学习任务的泛化能力和鲁棒性。这一工作对推动更健壮和可解释的人类般人工智能系统具有重要意义。
Sep, 2024