- 提高 AI 生成图像检测的解释性和鲁棒性
随着生成模型的能力增长,人工内容检测成为一项越来越重要且困难的任务。本文关注 AI 生成图像(AIGI)检测器的鲁棒性,通过分析基于冻结 CLIP 嵌入的现有最先进方法并展示如何解释它们,我们揭示了各种 AI 生成器生成的图像与真实图像的差 - 当部分大于总和:个别 LLM 组件能超越完整模型
通过将大型语言模型的输出分解为注意力头和 MLP(组件)的个体贡献,本文研究了上下文学习(ICL)。通过观察好表现的组件(即使整体模型表现不佳,它们在分类任务上也表现良好)、表现较差的组件(比随机预测差得多)和标签偏倚组件(总是预测相同的标 - LLM 表示的本地微调:LoFiT
这篇论文介绍了一种名为局部微调的框架(LoFiT)的方法,该方法通过识别对于特定任务学习最重要的一小部分注意力头,然后训练偏移向量添加到模型的隐藏表示中,从而有效地调整了大型语言模型的表示,用于适应指定任务,相比表示干预方法,LoFiT 的 - UniBias:通过内部注意力和 FFN 调整揭示和减轻 LLM 的偏见
通过研究语言模型中前馈神经网络和注意力头的作用,我们识别出导致偏见的组件,并提出了一种名为 UniBias 的仅用于推理的方法,该方法能够有效地识别和消除偏见的前馈神经网络向量和注意力头,大量实验验证了 UniBias 显著提高了模型的性能 - 启发式核心:理解预训练语言模型的子网络泛化
预训练语言模型在语法泛化方面的机制通过探索子网络和注意力机制的角度,提供了更详细的描述。
- 摇撼基础的耳语:对大规模语言模型中的虚假前提幻觉进行分析和缓解
大型语言模型经常出现幻觉问题,其中一种显著的问题是 “伪前提幻觉”,本文分析了伪前提幻觉的工作机理,并提出了一种名为 FAITH 的方法来减轻伪前提幻觉,实验证明该方法可以显著提高模型性能。
- 斩首结束冲突:解析和缓解语言模型中的知识冲突机制
通过信息流的角度解释知识冲突的机制,并在关键点进行精确干预,以解决语言模型中的知识冲突问题。通过剪枝冲突的注意力头部,我们提出了一种称为 PH3 的新方法,它可以高效地减轻知识冲突,并能改善语言模型在开放领域 QA 任务上的性能。
- 语言模型自我修复的探索
这篇论文研究对窄分布进行解释性研究,发现了自我修复现象,该现象表明,如果在大型语言模型中去除组件,后续的组件会改变其行为以进行补偿。我们的研究基于过去的文献,证明了当去除全训练分布上的单个注意力头时,自我修复存在于各种模型家族和规模上。我们 - 解读 Transformers 中的上下文查找:调查 Attention-MLP 交互
通过研究注意力头与特定 “下一个标记” 神经元在预测特定标记的多层感知机中的相互作用,我们可以揭示激活特定下一个标记神经元的注意机制。具体而言,我们关注在较早层次中不同提示下始终激活相同下一个标记神经元的注意力头。我们的方法结合了神经解释和 - 识别语义引导头以理解上下文学习
通过对注意力头的运行进行详细分析,我们发现特定的注意力头在上下文学习的能力中具有重要的语义联系,从而推进了我们对 transformers 中注意力头运行的复杂操作和大语言模型上下文学习的新洞察。
- BERT 和 DistilBERT 中导致性别偏见的结构研究
基于大型 Transformer 预训练语言模型(PLM)的研究已经改变了自然语言处理(NLP)领域,但这种性能提升伴随着复杂性的增加,以及模型规模的限制。本文通过对两个问题的实证研究探索了 BERT 和 DistilBERT 中性别偏见的 - AAAI公平感知的 Transformer 结构剪枝
通过研究注意力头对大型语言模型的公平性和性能的影响,提出一种修剪注意力头的全新方法,能减少性别偏见约 19%至 39.5%,而性能仅稍微下降。
- 迷宫解决变形器中的结构化世界表示
该研究通过解迷宫的方式,探究了小型 Transformer 模型的内部行为和结构化内部表示,其中发现了仅通过一个标记的残差流可以线性解码恢复整个迷宫的证据,以及每个标记的学习嵌入具有空间结构,并且通过识别称为 “邻接头” 的注意力头揭示了追 - Transformer-Based 语言模型注意力头中的偏见分析
通过对注意力头的偏见分析框架,发现预训练语言模型中存在有偏头部,这有助于对模型公正性进行评估和指导有效减轻策略的开发。对 BERT 模型和 GPT 模型的性别和种族偏见进行了广泛的实验研究,进一步理解了预训练语言模型中的偏见行为。
- 注意力透镜:一种解释机制注意头信息检索机制的工具
利用学习的注意力头特定转换,Attention Lens 将注意力头的输出转化为词汇标记,揭示了注意力头在语言模型中的高度特殊化角色。
- EMNLP转换器语言模型中的合理性处理:关注 GPT 中 Attention Heads 的作用
本文旨在探索 Transformer 语言模型如何处理语义知识,尤其是名词 - 动词关系的合理性。首先,作者证明了 GPT2 在合理性处理方面与人类相比具有更高的相似度;其次,作者深入研究了 GPT2 中合理性知识如何体现在注意力头中,以及 - 人类与语言模型在预测重复文本时的差异
通过研究语言模型在下一个单词预测任务中的表现与人类行为模式的比较,发现人类与 GPT-2 语言模型在文本展现初期表现强相关,随着记忆(或背景学习)的作用逐渐发挥,二者的表现迅速分歧,研究发现这种分歧的原因是特定的中间层注意力头部,为此通过在 - 通过基于文本的分解解释 CLIP 的图像表示
我们通过分析个别模型组件对最终表示的影响,研究了 CLIP 图像编码器。我们将图像表示分解为各个图像块、模型层和注意力头之间的总和,并使用 CLIP 的文本表示来解释各个部分。通过解释注意力头,我们确定了每个头的角色,通过自动寻找涵盖其输出 - 仅关注注意力的 Transformer 模型及使用注意力头实现的 MLP
证明了一个 MLP 神经元可以通过具有内部维度 1 的带有掩码注意力头来实现,只要 MLP 的激活函数来自包括 SiLU 以及接近 ReLU 和 GeLU 的受限类。同时证明了注意力头可以分别执行 MLP 的组成部分(线性变换和激活函数), - 内存注入:纠正变压器式语言模型推理中的多跳推理错误
通过对 LLM 注意力头部进行有针对性的内存注入,我们提出了一种解决多跳推理失败的方法,从而增强了多跳提示完成的质量。我们展示了在多跳任务中,向关键注意力层注入简单、高效和有针对性的记忆可以显著提高所需下一个标记的概率,最高可达 424%。