连接概念凸性与深度神经网络中的人机对齐
本研究调查神经网络表示与人类认知表示之间对齐的因素,发现模型规模和架构对齐性没有实质性影响,而训练数据集和目标函数对齐性有更大的影响。研究发现,神经网络表示的线性转换有助于提高与人类相似性判断的一致性,但规模和多样性更大的数据集训练的模型也不能满足人类认知表示的需求。
Nov, 2022
研究发现,尽管深度神经网络(DNNs)的成功主要是由于计算规模,而不是基于生物智能的洞见,但是随着精度的提高,DNNs与人类视觉策略的一致性逐渐降低,但是神经谐振器的出现可以使DNNs与人类的视觉策略相一致并提高分类精度。
Nov, 2022
通过信息理论分析和计算机视觉模型的实验,我们发现AI系统的世界表示与人类的相似度呈现U形关系,并表明高度相似的模型在少量数据、对抗攻击和领域转换方面更具鲁棒性和泛化能力,表明人类对齐通常是模型充分利用有限数据、鲁棒性和良好泛化的足够但不必要的条件。
Jan, 2023
本文探讨了测量人-机器对齐中机器学习的潜在空间中概念凸性的方法,并在多个应用领域的深度神经网络中评估了这种_convexity_。研究表明,类标签区域的预训练凸性预测了随后的微调表现。
May, 2023
在讨论人工智能对齐(人与人工智能系统之间的对齐)时,重点放在价值对齐上,广泛指的是创建具有人类价值观的人工智能系统。我们认为,在试图对齐价值之前,AI系统和人类对于理解世界所使用的概念需要对齐,这是至关重要的。我们结合了哲学、认知科学和深度学习的思想,解释了人类和机器之间需要概念对齐而非仅仅价值对齐的需求。我们总结了人类和机器目前如何学习概念的现有观点,并概述了达成共享概念的机遇和挑战。最后,我们解释了如何利用认知科学和人工智能研究中已经开发的工具来加速实现概念对齐的进展。
Jan, 2024
确定人类和人工智能之间的相似性和差异是机器学习和认知神经科学的重要目标。通过借鉴认知科学的最新发展,我们提出了一个通用框架,可在人类和深度神经网络 (DNN) 中产生可比较的表示。将此框架应用于人类和自然图像的 DNN 模型,揭示了一个低维度的 DNN 嵌入,包括视觉和语义维度。与人类不同,DNN 显示出视觉特征明显优于语义特征的优势,表明表示图像的策略存在分歧。尽管在硅中的实验显示 DNN 维度具有似乎一致的可解释性,但人类和 DNN 表示之间的直接比较表明它们在处理图像时存在重大差异。通过使表示直接可比较,我们的结果揭示了表示对齐的重要挑战,为提高它们的可比性提供了一种方法。
Jun, 2024
本研究针对深度学习模型的可解释性不足问题,提出基于认知科学的新视角。通过借鉴认知科学的发展,本文阐明了机械可解释性(MI)的目标并提出了一个新的分类法,以促进对深度学习模型的理解。研究表明,将行为研究与内部表示和算法的理解相结合,可以推动人工智能领域的理论进步和实践应用。
Aug, 2024
本研究解决了深度神经网络与人类视觉表征之间的不对齐问题,尤其是在抽象层次上的差异。通过训练一个模仿人类判断的教师模型,并将其结构迁移到预训练的视觉模型中,提出了一种新的方法来改进模型表现与人类更接近的方式。结果表明,这些人类对齐的模型在多种相似性任务和机器学习任务中表现更佳,从而提高了泛化能力和对分布外情况的鲁棒性。
Sep, 2024
该研究解决了现代学习系统与人类视觉表征之间的关键不对齐问题。通过训练教师模型模仿人类判断并将其结构转移至预训练的视觉基础模型,提出了一种新的方法,从而更准确地近似人类行为和不确定性,提高了机器学习任务的泛化能力和鲁棒性。这一工作对推动更健壮和可解释的人类般人工智能系统具有重要意义。
Sep, 2024