ICLRNov, 2022

神经网络表示的人工对齐

TL;DR本研究调查神经网络表示与人类认知表示之间对齐的因素,发现模型规模和架构对齐性没有实质性影响,而训练数据集和目标函数对齐性有更大的影响。研究发现,神经网络表示的线性转换有助于提高与人类相似性判断的一致性,但规模和多样性更大的数据集训练的模型也不能满足人类认知表示的需求。