关键词mechanistic interpretability
搜索结果 - 43
  • 基于上下文分解的 Transformer 中的机制解释
    PDF3 days ago
  • 在大型语言模型中寻找安全神经元
    PDF14 days ago
  • 跨码器寻找可解释的 LLM 特征电路
    PDF17 days ago
  • ICML通过机制可解释性为模型性能提供可证明的保证
    PDF17 days ago
  • 从特征可视化到视觉电路:对抗模型操控的效果
    PDFa month ago
  • ICML从神经元到中子:可解释性的案例研究
    PDFa month ago
  • 二进制和三进制变压器的机理解释性
    PDFa month ago
  • 大型语言模型:优秀的自发多语种学习者 —— 多语种标注数据是否必要?
    PDFa month ago
  • 本地交互基础:在神经网络中识别计算相关和稀疏交互特征
    PDF2 months ago
  • 利用损失景观中的蜕变性进行机械解释
    PDF2 months ago
  • GPT-2 如何预测缩写词?通过机制解释提取和理解电路
    PDF2 months ago
  • 锚定答案:揭示 GPT-2 在多项选择问题中的位置偏差
    PDF2 months ago
  • AI 安全的机理解释性研究 -- 综述
    PDF2 months ago
  • PURE: 通过识别相关电路将多义性神经元转化为纯特征
    PDF3 months ago
  • 字典学习改善机械解释性中无补丁电路发现:以奥赛罗 - GPT 为例
    PDF4 months ago
  • 大型语言模型黑匣子揭秘:整体可解释性的两个视角
    PDF5 months ago
  • 定位论文:朝着研究模型表示的新框架
    PDF5 months ago
  • 图形张量表示法的机制可解释性简介
    PDF5 months ago
  • 人工智能的真实火花与内在可解释性的重要性
    PDF5 months ago
  • GPT2 语言模型中的通用神经元
    PDF5 months ago
Prev