通过概念瓶颈解读预训练语言模型

Nov, 2023

通过概念瓶颈解读预训练语言模型

Interpreting Pretrained Language Models via Concept Bottlenecks

Zhen Tan, Lu Cheng, Song Wang, Yuan Bo, Jundong Li...

TL;DR利用高层次、易于理解的概念来解释预训练语言模型的方法，通过人工标注和机器生成的概念来提取隐藏神经元，从而增强模型的鲁棒性和解释能力。

Abstract

pretrained language models (PLMs) have made significant strides in various natural language processing tasks. However, the lack of interpretability due to their ``black-box'' nature poses challenges for responsib

pretrained language models interpretability attention weights concept learning model behavior

发现论文，激发创造

通过从字典中学习概念角色来提高语言模型的语义理解和一致性

基于概念角色理论，我们提出一种实用的方法来从根本上提高预训练语言模型的意义感知能力，通过学习字典中单词和定义之间的精确概念关系，进而结合预训练知识来改善模型的不一致行为并实现知识高效整合。实验结果表明此方法能同时提升多种一致性类型，实现知识的高效整合，并可以轻松应用于其他语言。

Oct, 2023

通过句子编辑探究语言模型可解释性

本文旨在将一个句子编辑数据集复用成为解释性测试场，系统研究预训练语言模型的可解释性及在该场景下的解释效果，发现注意力权重相关性较高，并且比基于梯度的显著性提取方法更有效。

Nov, 2020

使用语义锚点揭示 PLMs 的黑匣子：走向可解释的神经语义解析

通过引入分层解码器网络与中间监督任务，结合目前的 PLMs 构建了一种在语义解析任务中实现更好的性能与内在可解释性的方法。

Oct, 2022

瓶中之语：语言模型引导的概念瓶颈用于可解释的图像分类

本研究提出了一种基于 GPT-3 语言模型的 LaBo 方法来构建 Concept Bottleneck Models，LaBo 可以有效地搜索与给定问题领域相关的候选瓶颈概念，通过将 GPT-3 的句式概念与图像对齐形成瓶颈层，最终实验结果显示，LaBo 提高了 11.7% 的准确性，证明了解释性模型的广泛应用前景。

Nov, 2022

使用高影响概念解释语言模型的预测

本文提出了一个完整的框架，将基于概念的解释性方法扩展到 NLP 领域，提出了一种后期解释性方法，从预训练模型的隐藏层激活中提取具有预测高水平特征（概念），优化具有高影响力的特征的存在，设立了多种评估指标。在真实和合成任务上的广泛实验表明，与基线相比，我们的方法在预测影响、可用性和忠实度方面都取得了卓越的结果。

May, 2023

面向概念感知的大型语言模型

在本研究中，我们分析了当代大型语言模型对人类概念及其结构的理解程度，并讨论了发展具备概念意识的语言模型的方法，包括在不同阶段引入预训练和利用现有语言模型输出的简化方法。通过证明概念意识语言模型的初步结果，我们证明了其能够更好地符合人类直觉，提高了预测的稳定性，展示出了概念意识语言模型的潜力。

Nov, 2023

通过迭代生成的概念瓶颈实现可解释性的文本分类

提出一种名为 Text Bottleneck Models（TBMs）的可解释性文本分类框架，通过使用 Large Language Model（LLM）自动发现和测量一组显著概念，并利用线性层将这些概念值用于最终预测，从而在高风险领域中提供全局和局部解释，进而在广泛文本领域中提高解释性能。

Oct, 2023

LLMs 是否可以促进预训练语言模型的解释？

利用 ChatGPT 作为注释器，我们在预训练语言模型中发现潜在概念，并采用 GPT 注释进行注释。我们的发现表明，与人类注释概念相比，ChatGPT 产生了准确且语义更丰富的注释。此外，我们展示了 GPT-based 注释如何增强解释分析方法，其中我们展示了两个分析框架：probing framework 和 neuron interpretation。为了促进进一步的探索和实验，我们提供了一个包含 39,000 个注释潜在概念的 ConceptNet 数据集。

May, 2023

预训练如何改善基于语篇的翻译？

本研究探讨了预训练语言模型在捕捉篇章关系上的能力，并通过探究任务验证了不同架构和层数的 PLMs 的表现，得出了对于不同 NMT 任务在何种情况下使用不同层的 PLMs 是最好的决策。

May, 2023

COPEN：探测预训练语言模型中的概念知识

本研究提出了 COPEN，作为探查预训练语言模型概念知识的评估基准，并通过三项任务对 PLMs 的概念知识进行综合评估，结果表明现有的 PLMs 系统性缺乏概念知识并受到各种虚假相关性的影响。

Nov, 2022