编码器 LLMs 骨干的定向可视化

Mar, 2024

Targeted Visualization of the Backbone of Encoder LLMs

Isaac Roberts, Alexander Schulz, Luca Hermes, Barbara Hammer

TL;DR基于注意力机制的大型语言模型（LLMs）是自然语言处理（NLP）领域中的最先进技术。本文聚焦于编码器（如 BERT）模型，研究其在可解释人工智能方面的风险和对抗性攻击，并探索在 NLP 领域中应用 DeepView 的可行性。

Abstract

attention based large language models (LLMs) are the state-of-the-art in natural language processing (NLP). The two most common architectures are encoders such as BERT, and decoders like the GPT models. Despite the success of →

attention based large language models encoder models explainable ai adversarial attacks deepview

发现论文，激发创造

利用大型语言模型揭秘嵌入空间

利用大型语言模型将嵌入向量转化为可理解的叙述，解决了嵌入向量难于解释和使用的问题，增强了概念激活向量、通信新的嵌入实体和解码推荐系统用户偏好等任务的能力。

Oct, 2023

利用深度表示进行神经机器翻译

本文提出了一种新的神经机器翻译方法，采用层聚合和多层注意力机制，通过引入辅助正则化项促进不同层捕获多样化信息，实验结果表明该方法在 WMT14 英德和 WMT17 中英数据上具有普适性与有效性。

Oct, 2018

语言模型的可视化与解释

本文介绍了一些最流行的自然语言处理的深度学习可视化技术，并强调其可解释性和可解释性。

Apr, 2022

LLM2Vec: 大型语言模型是强大的文本编码器

我们引入了 LLM2Vec，这是一种简单的无监督方法，可以将任何解码器模型转换为强大的文本编码器，通过三个简单步骤：启用双向注意机制，掩码下一个标记预测和无监督对比学习，在英语词和序列级任务中，LLM2Vec 在词级任务上远远超过编码器模型，在 Massive Text Embeddings Benchmark (MTEB) 中获得了新的无监督最新性能，通过与有监督的对比学习相结合，我们在 MTEB 上实现了使用公开数据训练的模型的最新性能。

Apr, 2024

不要总是看向右边：探究基于解码器的大型语言模型在序列标注中的能力

提前训练的语言模型能够通过改进序列标记任务的表现，优于基于自回归语言模型的编码器，并通过去除因果掩码在信息提取任务中取得了与前沿模型相媲美的性能。

Jan, 2024

VisBERT: 针对 Transformers 模型的隐藏状态可视化

为了解决 BERT 模型在 NLP 任务中的解释和可视化问题，本文提出了一种工具 VisBERT，通过可视化 BERT 模型中的上下文令牌表示，观察该模型在每个编码器块中如何转换语义表达，并探索其推理步骤或潜在缺陷。

Nov, 2020

神经语言模型解剖

通过简洁明了的数学框架和清晰的图示，详细解释了神经语言模型的主要类型，包括 BERT 和 GPT2，同时讨论了在计算机视觉和时间序列应用中的转化及与自然语言处理的对比。

Jan, 2024

语言模型对生物医学成像任务的免费助推器

该研究揭示了残差型大型语言模型在生物医学图像任务中作为编码器的意外有效性，这在传统上与语言或文本数据无关。通过利用预训练的大型语言模型中的冻结变压器块作为创新编码器层，该方法与现有方法学不同，可以直接处理视觉标记。该研究发现，这些大型语言模型能够提升生物医学图像应用的性能，包括 2D 和 3D 的视觉分类任务，作为即插即用的增强器。更有趣的是，该提出的框架在 MedMNIST-2D 和 3D 的大规模标准数据集上取得了卓越的性能，刷新了最新的技术结果。通过这项工作，我们的目标是在生物医学图像领域开拓大型语言模型的应用新途径，并丰富对其在这一专业领域的潜力的认识。

Mar, 2024

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

大型语言模型作为虚拟导师的使用综述

利用 Transformer 架构的大型语言模型在教育领域引起了广泛关注，主要应用包括生成和评估教育材料、自动问题生成等，其中 GTP-3 和 BERT 是最受欢迎的模型。

May, 2024