关键词mechanistic interpretability
搜索结果 - 44
  • GPT2 语言模型中的通用神经元
    PDF5 months ago
  • 评估基于脑启发的模块化训练在机制可解释性的自动电路发现中的应用
    PDF6 months ago
  • 可观察传播:揭示变压器中特征向量的高效数据方法
    PDF6 months ago
  • 继任头:野外中的重复可解释注意力头
    PDF7 months ago
  • 利用超网络生成可解释的网络
    PDF7 months ago
  • 寻找的子空间是否是这个?子空间激活修补的可解释性幻觉
    PDF7 months ago
  • 在 Llama 中定位撒谎:通过提示、探究和修补解析对真假问题上的指导诚实行为
    PDF7 months ago
  • 在 Transformer 语言模型中的电路组件重用
    PDF9 months ago
  • 语言模型激活修复的最佳实践:度量与方法
    PDF9 months ago
  • 可证明安全系统:控制可达人工通用智能的唯一路径
    PDF10 months ago
  • ICCV迈向视觉语言机制可解释性:一种用于 BLIP 的因果追踪工具
    PDF10 months ago
  • 规模本身不足以提高视觉模型的机理可解释性
    PDFa year ago
  • 超越几何:使用动态相似性分析比较神经电路计算的时间结构
    PDFa year ago
  • 学习 Transformer 程序
    PDFa year ago
  • 语言模型实现简单的 Word2Vec 风格的向量算术
    PDFa year ago
  • 关于双线性层的技术注释 —— 可解释性
    PDFa year ago
  • 眼见为实:面向机械解释性的脑启发式模块化训练
    PDFa year ago
  • 实现自动电路发现以达到机理可解释性
    PDFa year ago
  • 用概念向量解开神经元表示
    PDFa year ago
  • 普适性的玩具模型:逆向工程网络如何学习群操作
    PDFa year ago