- ICML视觉 Transformer 中的多样特征学习以提高泛化性能
通过修剪与不必要特征相关的注意力头和鼓励输入梯度正交性,我们提出一种方法提高深度学习模型对分布变化的适应性并增加特征的多样性和互补性。
- 电路分析可解释性是否具有可扩展性?来自琪尼兔的多项选择能力的证据
电路分析是理解语言模型内部机制的一种有潜力的技术,通过在 70B Chinchilla 模型中进行案例研究,我们发现现有的逻辑归因、注意力模式可视化和激活修补技术在 Chinchilla 上具有可扩展性,并能够识别和分类一小组输出节点(注意 - 发现具有期望特性的变量绑定电路
我们介绍了一种方法,通过指定模型执行特定子任务的一组演化属性,自动识别执行该子任务的模型组件,作为概念验证,我们将该方法应用于自动发现 LLaMA-13B 中的共享变量绑定电路,成功将变量绑定定位到仅有的 9 个注意力头和最终记号的一个 M - GATology 在语言学中的应用:它能识别哪些句法依存关系
本文研究了 Graph Attention Network 在机器翻译中的应用,通过设计一个依赖关系预测任务,研究了 GAT 如何学习三种语言的语法知识,结果表明当 GAT 层数适当增加,可以获得更好的性能并保持训练速度更快和更有竞争力的语 - ACLHiFi: 高信息注意力头用于参数有效的模型调整
本文提出了一种名为 HiFi 的参数高效的微调方法,即只微调与特定任务高度相关的信息丰富且高度相关的注意力头,该方法使用 PageRank 算法搜索显著的注意力头,实验证明 HiFi 方法在 GLUE 基准测试中获得了先进的性能。
- Logion:希腊语学领域机器学习
利用机器学习方法,我们在希腊文献学领域解决了诸多问题。在使用最大的古希腊数据集训练 BERT 模型后,我们成功鉴别并纠正了文本传承过程中刻写员以往未能发现的错误,同时证明了该模型填补古代手稿材料损伤造成空缺的能力,并与领域专家的表现进行了比 - 自回归语言模型中事实关联的回忆解剖
本文通过信息流的视角研究了基于 Transformer 的语言模型如何在推理过程中检索参数中的实际知识,并通过对模型中注意力机制的介入实现了对预测中信息流的详细分析和理解。通过此研究,我们阐述了在语言模型中实现知识局部化和编辑的方法。
- EMNLP在保留通用知识的同时调整语言模型
本文提出了一种新的领域适应预训练方法,通过软遮罩注意力头并对一般和完全表示进行对比学习,以更智能的方式对 LM 中的知识进行适应,实验结果表明了该方法的有效性。
- 自然语言生成模型中的间接对象识别电路实现及其解释性
本文通过探究 GPT-2 small 在间接宾语识别等自然语言任务中的表现来解释仿真学习模型的行为,其中提及了 26 种注意力头,本研究是目前规模最大的一次试图从机器学习模型的内部组件入手逆向工程自然行为。我们以及利用了因果干预等解释性方法 - XAI for Transformers: 通过保守传递实现更好的解释
本文讨论了使用梯度信息的 Transformer 解释性方法的效果不佳,识别输入特征对预测的贡献不可靠,提出了一种更稳定的方法,该方法可以被视为对 Transformer 的 LRP 方法的适当扩展,通过 Attention Heads 和 - EMNLP干细胞假说:利用 Transformer 编码器进行多任务学习面临的困境
通过多任务学习,结合 transformer 编码器,研究了多个 NLP 任务,发现多任务学习的注意力头之间相互干扰,提出干细胞假说解释在某些任务上具有天赋的注意力头不能被同时训练。同时,提出了新的无参考探针来验证该假说,通过标签分析展示了 - ACLTransformer 注意力头在多语言和跨语言任务中的贡献
该论文研究了注意力头在 Transformer 模型中的相对重要性,以帮助其在跨语言和多语言任务中的可解释性。通过大量实验,证明了在多语言 Transformer 模型中修剪注意力头可以在跨语言和多语言任务中提高模型性能,并且可以使用梯度对 - CVPR三流网络用于增强动作识别
该论文提出了两种基于 CNN 的体系结构,包括三种流,可以分别捕捉不同速率的空间和时间信息,并使用双向 LSTM 和注意力机制进一步提高模型性能,实现了人类动作识别任务的最先进表现。
- AAAIHeads 假设:一种统一的统计方法,用于理解 BERT 中的多头注意力
提出一种新的方法,通过假设检验来形式化简单而有效的分数,从而分类定位 transformer-based model 的 attention heads 中的不同角色,可以更准确地回答一些有关 BERT 模型的问题,如多种功能角色在同一 a - 单次元元剪枝:减少注意力头部无关部分
本文提出了一种称为 Single-Shot Meta-Pruning 的方法,该方法致力于压缩深度预训练的 Transformer 模型,并集中于可以自适应地为不同的下游任务剪枝不必要的注意力头。与现有的预训练模型压缩方法相比,我们的方法可 - COLING缓解神经机器翻译中注意力头不平等
本篇论文研究表明 Transformer 中的注意力头并不相等,为解决这个问题,提出了 HeadMask 方法,在多个语言对中实现了翻译改进。
- 关于 Transformer 的计算能力及其对序列建模的启示
这篇论文研究了变形金刚网络的计算能力与图灵完备性,得出了只有通过位置掩蔽而没有位置编码的变形金刚同样具有图灵完备性,而某些残差连接是必需的结论,并通过机器翻译和合成任务的实验说明了结果的实际应用。
- 通过相对位置对知识图谱进行文本生成的图结构建模
本文介绍了 Graformer,一种新颖的基于 Transformer 的编码器 - 解码器体系结构,用于图形到文本的生成。使用我们新颖的图形自我关注,节点的编码依赖于输入图中的所有节点,促进了全局模式的检测。通过学习不同关注头的节点之间的 - ECCV幕后揭秘:揭示预训练视觉语言模型的秘密
该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言(V+L)方面的应用,通过评估和探索内部机制,提供了关于多模式预训练及其注意力头的启示和指导。
- ACL混合 $h-1$ 个头比 $h$ 个头更好
通过重新分配注意力头部,我们提出了一种混合专家模型(MAE),其利用分块协调下降算法对其进行训练,并在机器翻译任务和语言建模任务中表现出优异的性能。