Apr, 2023
实现自动电路发现以达到机理可解释性
Towards Automated Circuit Discovery for Mechanistic Interpretability
Arthur Conmy, Augustine N. Mavor-Parker, Aengus Lynch, Stefan Heimersheim, Adrià Garriga-Alonso
TL;DR本文提出了一种名为 Automatic Circuit DisCovery (ACDC) 的算法,用于自动识别网络中的重要单元,通过在神经网络进行数据集、指标和单元的研究,可理解每个神经网络区域的功能及其组成的电路。