Feb, 2024

RAVEL:对解缠语言模型表示方法的可解释性评估

TL;DR通过 RAVEL 数据集,我们引入了 Multi-task Distributed Alignment Search (MDAS) 方法,用于解决多个高级概念在单个神经元中的表示问题,并通过标识分布在激活中的特征来实现分布式表示。