LLMs是否可以促进预训练语言模型的解释？

May, 2023

LLMs是否可以促进预训练语言模型的解释？

Can LLMs facilitate interpretation of pre-trained language models?

Basel Mousi, Nadir Durrani, Fahim Dalvi

TL;DR利用 ChatGPT 作为注释器，我们在预训练语言模型中发现潜在概念，并采用 GPT 注释进行注释。我们的发现表明，与人类注释概念相比，ChatGPT 产生了准确且语义更丰富的注释。此外，我们展示了 GPT-based 注释如何增强解释分析方法，其中我们展示了两个分析框架：probing framework 和 neuron interpretation。为了促进进一步的探索和实验，我们提供了一个包含 39,000 个注释潜在概念的 ConceptNet 数据集。

Abstract

Work done to uncover the knowledge encoded within pre-trained language models, rely on annotated corpora or human-in-the-loop methods. However, these approaches are limited in terms of scalability and the scope of interpretation. We propose using a large language model, →

发现论文，激发创造

ConceptX：潜在概念分析框架

该研究提出了 ConceptX 人在循环框架, 用于解释深度语言模型中预训练隐藏表达空间, 并提供自动生成的基于语言本体论的概念注释，以表示这些模型中学习到的隐含概念，从而帮助注释人员标记模型中的偏见。

Nov, 2022

ChatGPT/GPT-4研究综述及对大型语言模型未来的展望

本文对ChatGPT和GPT-4进行了综合调查，分析了其在各领域的潜在应用，发现ChatGPT/GPT-4主要应用于自然语言处理，并在教育、历史、数学、医学和物理等领域具有潜力。同时也提出了伦理问题和未来发展方向。

Apr, 2023

GPT-3家族大型语言模型综述，包括ChatGPT和GPT-4

这篇综述论文总结了关于GPT-3家族大型语言模型的最近研究进展，并指导研究社区未来发展方向。

Oct, 2023

Proto-lm: 基于原型网络的大型语言模型内置可解释性框架

利用新型方法proto-lm，在维持性能竞争力的同时，使大语言模型具备了解释性，为实现可解释性的模型铺平了道路。

Nov, 2023

通过概念瓶颈解读预训练语言模型

利用高层次、易于理解的概念来解释预训练语言模型的方法，通过人工标注和机器生成的概念来提取隐藏神经元，从而增强模型的鲁棒性和解释能力。

Nov, 2023

Patchscope：语言模型隐藏表示的统一检查框架

使用Patchscopes框架可以解释大型语言模型的内部表示，统一之前的解释技术并扩展新的应用，如使用更强大的模型来解释较小的模型的表示和多跳推理中的自我校正。

Jan, 2024

大语言模型时代的可解释性重新思考

可解释机器学习与大型语言模型相结合，评估解释方法并提出使用语言模型分析数据集和生成交互式解释的两个研究重点。

Jan, 2024

语言笔者大：LLMs、ChatGPT、接地、意义与理解

ChatGPT是如何运作并具备超过预期能力的？本文通过与ChatGPT-4对话的方式，对ChatGPT作出解释，包括与语言自身相关的良性偏见、语言的间接语义基础以及神经网络中的类别学习等。

Feb, 2024

LLM模型的概念归纳：用于评估的用户实验

通过利用GPT-4的领域知识和常识能力，我们探索了大型语言模型在图像分类特定环境中生成高级概念作为人类解释的潜力，并通过人类研究评估了其有效性。

Apr, 2024

大型语言模型的注意力头：一项综述

本研究针对大型语言模型（LLMs）作为黑箱系统所导致的推理瓶颈，着重分析注意力头的内部机制。通过将人类思维过程提炼为四个阶段的框架，系统性地回顾现有研究，识别和分类特定注意力头的功能，从而为理解LLMs的推理过程提供新的视角与方法。

Sep, 2024