Jun, 2023

机械论解释中的两个故事:时钟和匹萨(The Clock and the Pizza: Two Stories in Mechanistic Explanation of Neural Networks)

TL;DR该研究研究发现,神经网络在一些算法任务上重新发现已知的算法是可靠的,但在模块加法等问题上,模型的超参数和初始化的微小变化可能会导致从固定数据集中发现不同的算法,有些神经网络实现的是熟悉的 Clock 算法,而另一些实现的是先前未描述的,不太直观但可以理解的 Pizza 算法,甚至包括更复杂的过程。