Patchscope：语言模型隐藏表示的统一检查框架

Jan, 2024

Patchscope：语言模型隐藏表示的统一检查框架

Patchscope: A Unifying Framework for Inspecting Hidden Representations of Language Models

Asma Ghandeharioun, Avi Caciularu, Adam Pearce, Lucas Dixon, Mor Geva

TL;DR使用 Patchscopes 框架可以解释大型语言模型的内部表示，统一之前的解释技术并扩展新的应用，如使用更强大的模型来解释较小的模型的表示和多跳推理中的自我校正。

Abstract

Inspecting the information encoded in hidden representations of large language models (LLMs) can explain models' behavior and verify their alignment with human values. Given the capabilities of LLMs in generating human-understandable text, we propose leveraging the model itself to expl

hidden representations large language models model behavior interpretability methods patchscopes

发现论文，激发创造

大语言模型时代的可解释性重新思考

可解释机器学习与大型语言模型相结合，评估解释方法并提出使用语言模型分析数据集和生成交互式解释的两个研究重点。

Jan, 2024

LLM2Loss: 利用语言模型进行可解释性模型诊断

利用大型语言模型，结合跨模态基础模型 CLIP，提取视觉输入的语义有意义的表示，并利用轻量诊断模型，对模型失败与偏差进行分析，从而了解黑盒模型的性能

May, 2023

大型语言模型黑匣子揭秘：整体可解释性的两个视角

通过一种全面解释性的框架，我们提出打开大语言模型的黑匣子，既关注机制可解释性、组件功能和训练动态，又通过隐藏表示进行行为分析，以实现与人类价值相一致的伦理、诚实和可靠推理。

Feb, 2024

大型语言模型合成文本数据集的语言多样性可视化

本研究提出了一款交互式可视化工具 LinguisticLens，通过对大语言模型生成的数据集的句法多样性进行聚类，用户可以快速检查数据集的总体情况并检查单个示例。

May, 2023

语言模型的哲学导论 - 第二部分：前进之路

通过对大型语言模型的解释性、因果干预方法的证据，以及多模态和模块化扩展，最近关于意识最低标准的争议以及在大型语言模型研究中的保密性和可重复性方面的担忧的讨论，该文讨论了大型语言模型及其对人类认知建模的相关性。

May, 2024

使用句法结构评估和解释大型语言模型在代码中的应用

ASTxplainer 是针对代码 LLMs 的一种可解释性方法，不仅能提供 LLM 评估的新方法，还能通过可视化 LLM 预测结果帮助终端用户理解模型预测。通过在常用的 GitHub 项目上进行实证评估和用户研究，研究结果表明 ASTxplainer 有潜力深入研究 LLM 的效能，并帮助终端用户理解预测结果。

Aug, 2023

从理解到应用：关于大型语言模型可解释性的调查

本文探讨大型语言模型（LLMs）的可解释性领域，强调了增强 LLMs 可解释性的必要性，重点关注预训练的基于 Transformer 的 LLMs，如 LLaMA，以及改善模型透明度和可靠性的解释性方法和评估方法的分类与讨论。

Jan, 2024

通用且独立：多语言探测框架用于全面模型解释和评估

本文提出并应用一种 GUI 辅助框架，使我们能够轻松地探寻普遍依赖数据中所有形态句法特征所出现的大量语言。我们发现，反映了过去几年自然语言处理的西方中心趋势，mBERT 模型中揭示的大多数规律对于西欧语言而言是典型的。因此，我们提出了一个工具包，以系统化解决多语种模型中存在的缺陷，为 104 种语言和 80 种形态句法特征提供可重复的实验设置。

Oct, 2022

大型语言模型的可解释性概述

对大型语言模型的解释技术进行分类和总结，并讨论了这些技术在训练范式、生成局部解释和全局解释方面的应用以及评估指标、调试模型和提高性能的挑战和机会。

Sep, 2023

Proto-lm: 基于原型网络的大型语言模型内置可解释性框架

利用新型方法 proto-lm，在维持性能竞争力的同时，使大语言模型具备了解释性，为实现可解释性的模型铺平了道路。

Nov, 2023