自我解读：大型语言模型嵌入的自我解释

Mar, 2024

自我解读：大型语言模型嵌入的自我解释

SelfIE: Self-Interpretation of Large Language Model Embeddings

Haozhe Chen, Carl Vondrick, Chengzhi Mao

TL;DR通过使用自然语言解释嵌入，SelfIE 可以揭示大型语言模型的内部推理过程，从而实现对其推理过程的解释和控制，进而提高可靠性、透明度和未来模型发展的能力。另外，我们提出了监督控制和强化控制的方法，分别用于编辑开放性概念和消除有害知识。

Abstract

How do large language models (LLMs) obtain their answers? The ability to explain and control an LLM's reasoning process is key for reliability, transparency, and future model developments. We propose selfie (Self

large language models selfie embedding interpretation llm reasoning supervised control

发现论文，激发创造

自监督可解释的基于概念的文本分类模型

该研究论文提出了一种自监督可解释概念嵌入模型（ICEMs），通过利用大型语言模型的泛化能力，在自监督方式下预测概念标签，并通过可解释的函数提供最终预测结果。实验结果表明，ICEMs 可以以自监督方式进行训练，并达到类似于全监督概念模型和端到端黑盒模型的性能。此外，该模型在预测方面具有解释性、互动性和可控性，能够提供有意义的逻辑解释、允许通过概念干预修改中间预测结果，并引导大型语言模型按照所需的决策路径进行解码。

Jun, 2024

交互演化：用于大型语言模型的神经符号自训练框架

通过研究所提出的名为 ENVISIONS 的环境引导的神经符号自训练框架，我们克服了符号数据的稀缺性和大型语言模型处理符号语言的能力有限这两个主要挑战，从而在三个不同领域的广泛评估中展示了我们的方法的有效性，并进行了全面分析以揭示贡献到 ENVISIONS 成功的因素，为未来的研究提供了有价值的见解。

Jun, 2024

自我解释：教大型语言模型自行推理复杂问题

聚焦大型语言模型，探索通过自我解释生成复杂问题的过程，发现自我解释可以使模型更自信、更准确、更少倾向性地回答问题，甚至在几个复杂问题回答数据集上优于人工生成的示例。

Nov, 2023

信心的重要性：重审大型语言模型的内在自我纠正能力

研究综合调查了大型语言模型（LLM）的内在自我修正能力，并提出了一种基于 “confidence” 的 “If-or-Else” 提示框架，以帮助提升自我修正能力的准确性。

Feb, 2024

通过询问 LLMs 提出易于解释的嵌入

通过利用大型语言模型（LLMs）生成的问答嵌入向量（QA-Emb）可以灵活生成可解释的用于预测 fMRI 核心响应的模型，从而深入评估我们对语义性大脑表示的理解。

May, 2024

自我检索：运用一种大型语言模型构建信息检索系统

本文提出了自助检索 (Self-Retrieval) 的一种端到端、以大型语言模型为驱动的信息检索架构，能够充分内化信息检索系统所需的能力到一个单一的大型语言模型，深度利用语言模型在信息检索过程中的能力。实验结果表明，自助检索不仅在很大程度上优于以前的检索方法，还能显著提升以大型语言模型为驱动的下游应用，例如检索增强生成。

Feb, 2024

IERL: 可解释的集成表示学习 —— 结合众包知识和分布式语义表示

研究通过使用知识图谱来优化大型语言模型的性能，并提出了一种能够解释的集成学习方法 (IERL)，在 General Language Understanding Evaluation (GLUE) 任务中表现良好。

Jun, 2023

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

自我驱动的语言模型大规模自我演进

使用自我进化与语言反馈的创新方法，自主学习和发展自主人工智能的关键，使大型语言模型在不同领域展现出了非凡的适应能力。

Oct, 2023

用户 - LLM: 基于用户嵌入的高效 LLM 语境化

利用用户嵌入来上下文化大型语言模型，实现显著性能提升。

Feb, 2024