柏拉图表征假设

May, 2024

The Platonic Representation Hypothesis

Minyoung Huh, Brian Cheung, Tongzhou Wang, Phillip Isola

TL;DRAI模型中的表示正在收敛，通过调查文献中的多个例子和数据模态的比较，我们证明了对于不同的神经网络来说，它们对数据的表示方式变得越来越趋同。我们假设这种趋同性驱动着AI模型走向一种共享的统计模型现实，类似于柏拉图所提出的理念，我们将这种表示称为柏拉图表示，并讨论了几种可能的压力驱使其出现。最后，我们讨论了这些趋势的影响、局限性以及对我们分析的反例。

Abstract

We argue that representations in ai models, particularly deep networks, are converging. First, we survey many examples of convergence in t

发现论文，激发创造

表征的意义：作为可证伪记忆模式的心理表征

本文探讨了神经科学和人工智能中所谓的表述问题，并提出了一种基于激活条件的结构推断来解决这个问题的方案，该方案可以用于规划、预测和检测。并通过简单神经网络模型的模拟来说明该方案。

Mar, 2022

语言和视觉模型几何形态的融合含义

通过对三种不同的预训练语言模型和三种计算机视觉模型进行实证研究，本文发现预训练语言模型具有与计算机视觉模型部分同构的表示收敛能力，其中分散性和多义性对语言和视觉空间的对齐性产生影响。

Feb, 2023

自监督变形器中抽象表征的形成与功能

通过研究小规模transformer在重建部分遮蔽的简单蓝图可视场景方面的内在机制，我们发现网络发展了一种包含数据集的所有语义特征的中间抽象表示或抽象，这些抽象表现为低维流形，其中语义相关令牌的嵌入短暂地收敛，从而实现了对下游计算的泛化。我们还引入了一种语言增强架构（LEA），旨在鼓励网络表达其计算过程，发现LEA发展了一种易于解释的以抽象为中心的语言，使我们更容易访问和指导网络的决策过程。

Dec, 2023

迭代学习在大型视觉语言模型中提高组合性

通过引入一种新的迭代训练算法，以文化传播作为归纳先验，本研究以视觉代理和语言代理之间的Lewis信号游戏重新定义了视觉-语言对比学习，并通过在训练过程中迭代重置代理权重的方式实现文化传播，使得模型对于合成语言的特性变得更易于学习，达到了在SugarCrepe评测中相比标准CLIP模型分别提升4.7%和4.0%的效果。

Apr, 2024

表示形式作为语言：一个信息论解释的框架

通过一种新颖的可解释性方法，该论文使用信息论度量量化了神经模型对输入的表示的结构化程度，从而预测模型的泛化能力，并发现模型的代表性和噪声强度有关。此外，研究还研究了模型大小对表示空间结构的影响。

Jun, 2024

深度神经网络与人类表征对齐的基本维度

确定人类和人工智能之间的相似性和差异是机器学习和认知神经科学的重要目标。通过借鉴认知科学的最新发展，我们提出了一个通用框架，可在人类和深度神经网络 (DNN) 中产生可比较的表示。将此框架应用于人类和自然图像的 DNN 模型，揭示了一个低维度的 DNN 嵌入，包括视觉和语义维度。与人类不同，DNN 显示出视觉特征明显优于语义特征的优势，表明表示图像的策略存在分歧。尽管在硅中的实验显示 DNN 维度具有似乎一致的可解释性，但人类和 DNN 表示之间的直接比较表明它们在处理图像时存在重大差异。通过使表示直接可比较，我们的结果揭示了表示对齐的重要挑战，为提高它们的可比性提供了一种方法。

Jun, 2024

可解释性中的认知革命：从解释行为到解释表示与算法

本研究针对深度学习模型的可解释性不足问题，提出基于认知科学的新视角。通过借鉴认知科学的发展，本文阐明了机械可解释性（MI）的目标并提出了一个新的分类法，以促进对深度学习模型的理解。研究表明，将行为研究与内部表示和算法的理解相结合，可以推动人工智能领域的理论进步和实践应用。

Aug, 2024

跨抽象层次对齐机器与人类视觉表征

本研究解决了深度神经网络与人类视觉表征之间的不对齐问题，尤其是在抽象层次上的差异。通过训练一个模仿人类判断的教师模型，并将其结构迁移到预训练的视觉模型中，提出了一种新的方法来改进模型表现与人类更接近的方式。结果表明，这些人类对齐的模型在多种相似性任务和机器学习任务中表现更佳，从而提高了泛化能力和对分布外情况的鲁棒性。

Sep, 2024

连接概念凸性与深度神经网络中的人机对齐

本研究解决了神经网络如何与人类认知过程对齐的问题，填补了这一领域的研究空白。通过探讨神经网络表示中的凸性与人机对齐之间的关系，研究发现预训练和微调的视觉变换模型中这两者存在相关性。这一发现提示凸区域与人类定义的类别相一致，潜在地提升了AI系统的可解释性和可靠性。

Sep, 2024

在抽象层次上对齐机器与人类视觉表征

该研究解决了现代学习系统与人类视觉表征之间的关键不对齐问题。通过训练教师模型模仿人类判断并将其结构转移至预训练的视觉基础模型，提出了一种新的方法，从而更准确地近似人类行为和不确定性，提高了机器学习任务的泛化能力和鲁棒性。这一工作对推动更健壮和可解释的人类般人工智能系统具有重要意义。

Sep, 2024