BriefGPT.xyz
Ask
alpha
关键词
distributed alignment search
搜索结果 - 2
规模上的可解释性:在 Alpaca 中识别因果机制
本文介绍了基于因果抽象的分布式对齐搜索方法(Distributed Alignment Search,DAS),通过替换搜索过程并训练参数,能够高效地在大型语言模型中搜索可解释的因果结构。在应用 DAS 于 Alpaca 模型时,我们发现它
→
PDF
a year ago
在可解释因果变量和分布式神经表示之间找到对齐
本文介绍了一种名为分布式对齐搜索(DAS)的方法,它使用梯度下降来找出高层和低层模型之间的对齐,并允许单个神经元在非标准基中扮演多个不同的角色,从而发现了其他方法所错过的内在结构,为进行因果抽象分析消除了前期的限制。
PDF
a year ago
Prev
Next