抽象对齐：模型与人类概念关系的比较

Jul, 2024

抽象对齐：模型与人类概念关系的比较

Abstraction Alignment: Comparing Model and Human Conceptual Relationships

Angie Boggust, Hyemin Bang, Hendrik Strobelt, Arvind Satyanarayan

TL;DR将机器学习模型的抽象与人类预期的抽象进行比较，量化其一致性，以提供对模型行为和数据集内容的更深入理解，并通过区分基于其与人类知识的一致性的错误，扩大当前模型质量指标的详细性，揭示改进现有人类抽象的方式。

Abstract

abstraction -- the process of generalizing specific examples into broad reusable patterns -- is central to how people efficiently process and store information and apply their knowledge to new data. Promisingly, research has shown that →

发现论文，激发创造

深度神经网络中的不变性是否与人类感知相一致？

研究如何将深度神经网络通过生成具有相同表现的输入来捕捉感知的不变性，并通过敌对正则化程序与人类感知对齐来评估其安全可靠性。

Nov, 2021

人类和机器学习中抽象概念与统计模式匹配的分离

本研究在分析人类和神经网络在元强化学习范式中通过定抽象特征区分任务表现的差异，其中构建了一种新方法“任务合成体”，其具有相似的统计特征但使用不同的基础生成过程。结果表明，人类在抽象任务上表现比任务合成体更好，而常见神经网络架构在抽象任务上的表现比匹配的任务合成体更差。

Apr, 2022

神经网络表示的人工对齐

本研究调查神经网络表示与人类认知表示之间对齐的因素，发现模型规模和架构对齐性没有实质性影响，而训练数据集和目标函数对齐性有更大的影响。研究发现，神经网络表示的线性转换有助于提高与人类相似性判断的一致性，但规模和多样性更大的数据集训练的模型也不能满足人类认知表示的需求。

Nov, 2022

人类概念结构的行为估计在任务上很稳健，但在大型语言模型中不稳定

本文探讨使用认知心理学方法估计和比较人类和 GPT-3 的概念表征结构，结果表明语义结构的估计在人类之间保持一致，而在 GPT-3 中则取决于所使用的任务。

Apr, 2023

训练先验预测文本到图像模型的性能

本文研究了基于 SVO 三元组的文本到图像模型的训练机制，发现该类模型生成图像的能力建立在模型对于大量训练数据中频繁的三元组的记忆上，而对于训练数据中出现较少的关系组合以及非典型角色的概念，模型的性能较差。这表明了当前的文本到图像模型存在着较强的训练偏置，难以在生成图像的任务中使用传统意义下的抽象组合结构，其表现更像是已有训练数据之间的插值运算。

May, 2023

大型语言模型向人类类似的概念组织收敛

大型语言模型在知识提取、推理和对话方面显示出与人类相似的表现，但是它们的表现究竟是通过记忆和模式匹配来解释的，还是反映了人类般的推理语义和世界知识，存在争议。本文展示了大型语言模型学习以类似于知识库的方式组织概念，这些知识库提供了推理语义和世界知识的大规模高质量表征。大型语言模型似乎从原始文本中引出这种知识，而更大更好的模型表现出更符合人类的概念组织，涵盖了四个系列的语言模型和三个知识图谱嵌入。

Aug, 2023

大型语言模型中的跨域对齐揭示出人类类似的模式

本文通过行为研究，评估大型语言模型（LLMs）的概念化和推理能力，使用跨领域映射任务并分析模型的响应，结果显示模型的表示和行为与人类相似。

May, 2024

语言模型中的概念形成与对齐：将潜在空间中的统计模式与概念分类框架联系起来

该研究探讨了语言模型内的概念形成和对齐，提出了一种识别语言模型中概念和它们之间层次组织的机制，从Glove到ALBERT和T5等不同的语言模型，利用这些模型生成的语义嵌入中的内在结构提取出概念的分类和层次关系，从而揭示了语言模型如何发展概念理解，并为进一步改善它们的推理能力和运用真实世界知识的能力开启了研究之门。同时，我们进行了实验证明了从基于transformer的语言模型中独立提取这些抽象概念表示的可能性。通过观察到的概念形成以及将概念表示从推理模块中隔离出来，可以实现有针对性的标记工程，为知识转移、可解释的人工智能和开发更模块化、概念基础的语言模型带来潜在应用。

Jun, 2024

跨抽象层次对齐机器与人类视觉表征

本研究解决了深度神经网络与人类视觉表征之间的不对齐问题，尤其是在抽象层次上的差异。通过训练一个模仿人类判断的教师模型，并将其结构迁移到预训练的视觉模型中，提出了一种新的方法来改进模型表现与人类更接近的方式。结果表明，这些人类对齐的模型在多种相似性任务和机器学习任务中表现更佳，从而提高了泛化能力和对分布外情况的鲁棒性。

Sep, 2024

在抽象层次上对齐机器与人类视觉表征

该研究解决了现代学习系统与人类视觉表征之间的关键不对齐问题。通过训练教师模型模仿人类判断并将其结构转移至预训练的视觉基础模型，提出了一种新的方法，从而更准确地近似人类行为和不确定性，提高了机器学习任务的泛化能力和鲁棒性。这一工作对推动更健壮和可解释的人类般人工智能系统具有重要意义。

Sep, 2024