蛋白质语言模型中的知识神经元识别

Dec, 2023

蛋白质语言模型中的知识神经元识别

Identification of Knowledge Neurons in Protein Language Models

Divya Nori, Shivali Singireddy, Marina Ten Have

TL;DR神经语言模型在自然语言处理任务中学习复杂实体表示成为强大工具，然而在计算生物学等领域中，其可解释性仍然是一个重要挑战。本研究旨在通过识别和表征知识神经元增强蛋白质语言模型（特别是 ESM 模型）的可解释性，通过将 ESM 模型针对酶序列分类任务进行微调，在比较两种保留原始模型中的子集神经元的知识神经元选择方法方面取得了一致优于随机基准线的结果。尤其是这些方法表明自注意力模块的关键向量预测网络中存在高密度的知识神经元，考虑到关键向量专门用于理解输入序列的不同特征，这些知识神经元可以捕捉不同的酶序列基序知识。未来，可以对每个神经元所捕捉到的知识类型进行表征。

Abstract

neural language models have become powerful tools for learning complex representations of entities in natural language processing tasks. However, their interpretability remains a significant challenge, particular

neural language models interpretability protein language models knowledge neurons enzyme sequence classification

发现论文，激发创造

知识神经中心之旅：发现无关语言的知识神经元和退化知识神经元

本研究揭示了多语种预训练语言模型中的事实知识是如何存储在参数中的，并引入了架构适应性多语种集成梯度方法，它相比现有方法更准确地定位知识神经元，并且在不同的架构和语言中更具普适性。此外，我们对知识神经元进行了深入探索，发现了两个重要发现：(1) 存储跨语言事实知识的语言无关知识神经元的发现；(2) 退化知识神经元的发现，它表明不同的知识神经元可以存储相同的事实。实验证明了这些发现，并为多语种预训练语言模型中事实知识存储的机制提供了宝贵的见解，源代码将公开供进一步研究使用。

Aug, 2023

通过知识增强的原始结构建模进行蛋白质表示学习

KeAP 提出了一种利用知识的自编码器方法，通过 token-level 知识图谱探索辅助蛋白质表示学习，取得了比之前更好的结果。

Jan, 2023

大型语言模型中的关键神经元分析

本研究引入了神经元归因逆向集群归因（NA-ICA）的新架构不受限于特定模型，能够有效识别大型语言模型中的关键神经元，并通过多选题回答的代理任务检查单词以外的长文本答案。经验评估证明，NA-ICA 明显优于基准方法。此外，对神经元分布的分析揭示了可见的局部区域，尤其在不同领域之间。最后，我们展示了关键神经元在知识编辑和基于神经元的预测中的潜在应用。

Jun, 2024

超越 ESM2: 借助高效聚类的图增强蛋白质序列建模

本研究使用 ESM2 最先进的蛋白质语言模型，并结合蛋白质家族分类和基于社区传播的聚类算法，改善了全局蛋白质表示和局部氨基酸准确性，从而大幅提升蛋白质表达质量，并在多个下游实验中取得了最先进的结果。

Apr, 2024

一种可解释的神经元嵌入用于静态知识蒸馏

通过将神经元嵌入语义空间来提取它们内在的全局语义，提出了一种新的可解释神经网络方法。神经元的激活相似性和语义向量相似性被不断对齐来优化语义向量，可视化语义向量可以定性地解释神经网络的工作机制，并经过了定量的知识蒸馏任务的实验验证，表明提出的静态知识蒸馏方法表现出了可比或甚至优于现有的基于关系的知识蒸馏方法。

Nov, 2022

神经知识语言模型

该研究提出了一种神经知识语言模型 (NKLM)，将知识图提供的符号化知识与 RNN 语言模型相结合，通过预测所生成的单词是否具有潜在事实，从预测事实的描述中复制生成这些与知识相关的单词。实验结果表明，NKLM 显著提高了性能的同时，生成了更少的未知词。

Aug, 2016

我的知识增强语言模型有哪些变化？

该论文提出了一种叫做 “Graph Convolution Simulator”（GCS）的探针模型，用于解释知识增强语言模型（Knowledge-enhanced LMs）中知识整合的方式，并发现只有少量的事实知识被整合进 ERNIE 和 K-Adapter 中。

Feb, 2022

神经元专业化：利用内在任务模块化实现多语言机器翻译

通过神经元特化，提出一种解决多语言翻译中干扰和促进知识转移的方法，并通过大量实验证明了其相比强基准模型的性能提升以及减少干扰并增加知识转移的效果。

Apr, 2024

知识神经元论与知识有什么关系？

重新评估了 Knowledge Neuron (KN) Thesis，发现其对于大型语言模型从训练语料库中提取事实的机制的解释过于简化，并且无法充分解释事实表达的过程，需要进一步研究模型的复杂层结构和注意机制来获得更全面的知识表示过程的理解。

May, 2024

知识本地化：任务未完成？进入查询本地化！

大型语言模型可以存储广泛的事实知识，但其存储和表达这些知识的机制仍不清楚。本论文重新考察了知识定位假设的合理性，并从统计学和知识修改的角度确认了不符合该假设的事实的存在。进一步提出了关联查询和知识选择的方法，以及一种改进知识修改的一致性感知方法。通过 39 组实验证实了我们的结论。

May, 2024