与人类表征的对齐支持强大的少样本学习

Jan, 2023

与人类表征的对齐支持强大的少样本学习

Alignment with human representations supports robust few-shot learning

Ilia Sucholutsky, Thomas L. Griffiths

TL;DR通过信息理论分析和计算机视觉模型的实验，我们发现 AI 系统的世界表示与人类的相似度呈现 U 形关系，并表明高度相似的模型在少量数据、对抗攻击和领域转换方面更具鲁棒性和泛化能力，表明人类对齐通常是模型充分利用有限数据、鲁棒性和良好泛化的足够但不必要的条件。

Abstract

Should we care whether ai systems have representations of the world that are similar to those of humans? We provide an information-theoretic analysis that suggests that there should be a U-shaped relationship between the degree of →

ai systems representational alignment few-shot learning computer vision models human-alignment

发现论文，激发创造

神经网络表示的人工对齐

本研究调查神经网络表示与人类认知表示之间对齐的因素，发现模型规模和架构对齐性没有实质性影响，而训练数据集和目标函数对齐性有更大的影响。研究发现，神经网络表示的线性转换有助于提高与人类相似性判断的一致性，但规模和多样性更大的数据集训练的模型也不能满足人类认知表示的需求。

Nov, 2022

学习人类化的表示以实现学习人类价值

构建与人类价值和目标相一致的 AI 系统，防止造成伤害或违反社会可接受行为的标准是一个重要课题，本研究通过研究伦理学作为价值一方面并训练多个 ML 代理，研究其与人类的代表性一致程度与学习最具道德行为的性能之间的关系。

Dec, 2023

机器人和人类表示的对齐

本文调查了当前大部分奖励和模仿学习方法的机器人任务表示与人类任务表示不匹配的问题，并主张应该将机器人学习任务的表示与人类对齐，以及从定义问题的数学角度出发研究机器人物理表示学习。

Feb, 2023

利用人类相似度判断改善神经网络表征

研究发现，在保留本地结构的情况下对神经网络表示进行全局结构对齐可在各种少样本学习和异常检测任务中显著提高准确性。

Jun, 2023

代表性对齐的达成

生物和人工信息处理系统形成世界的表示，以用于分类、推理、规划、导航和决策。研究这些不同系统形成的表示在多大程度上一致？不同的表示是否仍然可以导致相同的行为？系统如何修改其表示以更好地匹配另一个系统的表示？研究表示对齐的这些问题是当代认知科学、神经科学和机器学习最活跃的研究领域之一。为了改善不同领域之间的沟通，我们提出了一个统一的框架，可以作为研究表示对齐的研究人员之间的共同语言。我们从认知科学、神经科学和机器学习领域的文献中进行综述，并展示了以前的工作如何适应这个框架。最后，我们提出了在表示对齐方面的开放问题，进展可以使这三个领域受益。我们希望我们的工作能够促进跨学科合作，加速所有研究和开发信息处理系统的社区的进步。请注意，这是一篇工作论文，欢迎读者提出他们对未来修订的建议。

Oct, 2023

为基于实例的决策支持学习与人类兼容的表征

本文结合度量学习和监督学习的思想，使用人类提供的三元组判断来学习人类兼容的决策重心表示，该表示与人类知觉更好地匹配，使人类能够更准确地进行预测，并在多个分类任务中通过合成数据和人类实验表明其有效性，从而获得显著提高的人类决策准确度（对蝴蝶与飞蛾分类增加了 17.8％，对肺炎分类增加了 13.2％）。

Mar, 2023

深度神经网络与人类表征对齐的基本维度

确定人类和人工智能之间的相似性和差异是机器学习和认知神经科学的重要目标。通过借鉴认知科学的最新发展，我们提出了一个通用框架，可在人类和深度神经网络 (DNN) 中产生可比较的表示。将此框架应用于人类和自然图像的 DNN 模型，揭示了一个低维度的 DNN 嵌入，包括视觉和语义维度。与人类不同，DNN 显示出视觉特征明显优于语义特征的优势，表明表示图像的策略存在分歧。尽管在硅中的实验显示 DNN 维度具有似乎一致的可解释性，但人类和 DNN 表示之间的直接比较表明它们在处理图像时存在重大差异。通过使表示直接可比较，我们的结果揭示了表示对齐的重要挑战，为提高它们的可比性提供了一种方法。

Jun, 2024

将机器人的表示与人类对齐

研究了如何将在一个环境中学到的知识传递到另一个环境中的关键问题，并通过学习人类期望机器人执行哪些任务的中间表示方法，来提高机器人学习效率，从而为人类与机器人的互动打下基础。

May, 2022

机器语言模型中对齐和有用性之间的权衡

语言模型对齐是 AI 安全的重要组成部分，通过增强期望行为和抑制非期望行为，使人类和语言模型之间进行安全交互。在这篇论文中，我们研究了对齐增加和模型有用性减少之间的权衡，并提出了一个理论框架，以在实证上证明其相关性。我们发现，当表示工程向量的范数线性增加时，模型的对齐线性增加，而模型的有用性则呈二次减少，这表明表示工程的使用是有效的。我们通过实验证实了我们的发现，并勾勒出表示工程在对齐中的有用性边界。

Jan, 2024

语言对齐的视觉表示预测自然学习任务中的人类行为

本研究探讨类别学习和奖励学习实验中的泛化技能和预测人类行为的最有效表示方法，结果表明，深度学习模型从文本和图像数据中训练得到的表示方式优于仅从图像中训练得到的表示方式，强调了语言在塑造人类认知中的作用。

Jun, 2023