从理解到应用：关于大型语言模型可解释性的调查

Jan, 2024

从理解到应用：关于大型语言模型可解释性的调查

From Understanding to Utilization: A Survey on Explainability for Large Language Models

Haoyan Luo, Lucia Specia

TL;DR本文探讨大型语言模型（LLMs）的可解释性领域，强调了增强 LLMs 可解释性的必要性，重点关注预训练的基于 Transformer 的 LLMs，如 LLaMA，以及改善模型透明度和可靠性的解释性方法和评估方法的分类与讨论。

Abstract

This survey paper delves into the burgeoning field of explainability for large language models (llms), a critical yet challenging aspect o

explainability large language models llms transformer-based llms model transparency

发现论文，激发创造

大型语言模型的可解释性概述

对大型语言模型的解释技术进行分类和总结，并讨论了这些技术在训练范式、生成局部解释和全局解释方面的应用以及评估指标、调试模型和提高性能的挑战和机会。

Sep, 2023

大语言模型时代的可解释性重新思考

可解释机器学习与大型语言模型相结合，评估解释方法并提出使用语言模型分析数据集和生成交互式解释的两个研究重点。

Jan, 2024

文本处理与检索方法的可解释性：一项关键调查

本文全面调研了针对词嵌入、序列建模、注意力模块、Transformer、BERT 以及文档排名的机器学习和自然语言处理研究的可解释性和解释性方法，最后提出了未来的研究方向。

Dec, 2022

解释解释的 XAI 未来方向

利用大型语言模型将机器学习解释转化为自然的人类可读叙述，以增强解释性和可用性。

May, 2024

探索大型语言模型的领域、技术与挑战

对于大型语言模型（LLMs）的研究，包括基本原理、应用领域以及训练过程，本综述论文对于上下文学习、多种微调方法以及参数使用效率优化等机制进行探讨，同时深入研究了如何通过创新的强化学习框架和融入人类反馈的新方法来更好地与人类偏好相统一的问题。还研究了将外部知识融入 LLMs 的新兴技术 —— 检索增强生成。对于 LLMs 的伦理问题，论文讨论了需谨慎且负责任的应用需求。最后，论文展望了未来的研究方向，提供了关于当今及未来 LLMs 领域中不断发展的全面且简明的概述，为人工智能领域的研究人员和实践者提供了有益的指南。

Apr, 2024

解释型自然语言处理的本地解释概览

研究探讨了提高深度神经网络在自然语言处理（NLP）任务中的可解释性的各种方法，包括机器翻译和情感分析，并对术语 “可解释性” 及其各个方面进行了全面讨论。这项工作列举了与局部解释相关的各种方法，并将其分为三类：1）通过相关的输入特征解释模型的预测；2）通过自然语言解释进行解释；3）探查模型和单词表示的隐藏状态。

Mar, 2021

大型语言模型与可解释性法律：一种混合方法

提倡使用 LLMs 来增强基于规则的法律系统的可访问性、使用性和可解释性，为法律技术的民主和利益相关者导向视角做出贡献。发展了一种方法来探索 LLMs 在将规则系统生成的解释从高级编程语言翻译成自然语言上的潜在应用，使所有用户能够快速、清晰和便捷地与这些技术进行交互。研究还进一步建立在这些解释之上，通过使用一系列提示链来赋予非专业人士在自己身上执行复杂的法律任务的能力，用于对相同事实案例应用基于规则的不同推理的自主法律比较。

Nov, 2023

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用 LLM 进行 NLG 评估的全面概述，包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的 NLG 评估技术。

Jan, 2024

关于在心理健康应用中重新思考大型语言模型

大型语言模型在心理健康方面表现出很大的潜力，但使用它们时需要保持谨慎和考虑，把它们视为辅助人类专业技术而非替代品，因为它们可能产生幻觉般的输出，并且在心理健康咨询中，人类辅导员的情感理解、细致解读和背景意识仍然不可替代。

Nov, 2023