Transformer 中的动态上下文适应和信息流控制：引入评估调整单元和门控残差连接

May, 2024

Transformer 中的动态上下文适应和信息流控制：引入评估调整单元和门控残差连接

Dynamic Context Adaptation and Information Flow Control in Transformers: Introducing the Evaluator Adjuster Unit and Gated Residual Connections

PDF

Sahil Rajesh Dhayalkar

TL;DR由于其在数据中建模长距离依赖的独特能力，transformers 已经彻底改变了人工智能的各个领域。然而，它们在特征和信息流的细微变化上存在不足。本文引入了两个重要的改进来解决 transformer 架构的这些局限性 - 评估者调整单元 (EAU) 和门控残差连接 (GRC)。EAU 根据输入上下文的相关性动态调节注意力输出，从而允许更具适应性的响应模式。同时，GRC 通过门控机制修改 transformer 的残差连接，有选择地控制信息流动，从而增强网络集中关注上下文重要特征的能力。我们在自然语言处理的多个基准测试上评估了这些改进的性能。我们的结果表明，这些改动改善了适应性和效率，可能会为设计灵活和上下文感知的 transformer 模型设定新的标准。

Abstract

transformers have revolutionized various domains of artificial intelligence due to their unique ability to model long-range dependencies in data. However, they lack in nuanced, context-dependent modulation of fea

transformers evaluator adjuster unit gated residual connections long-range dependencies contextual modulation

发现论文，激发创造

缓存变形器：利用可微记忆缓存改进变形器

引入一种名为 Cached Transformer 的新型 Transformer 模型，采用门控循环缓存（GRC）注意力扩展了自注意机制，实现可微分的令牌记忆缓存。GRC 注意力使得可以关注过去和当前的令牌，增大了注意力的感受野，可用于探索长距离的依赖关系。通过使用循环门控单元持续更新缓存，我们的模型在六种语言和视觉任务中实现了显著的进展，包括语言建模、机器翻译、ListOPs、图像分类、物体检测和实例分割。此外，我们的方法超越了先前基于记忆的技术在语言建模等任务中的性能，并展示了适用于更广泛场景的能力。

Dec, 2023

正则化上下文门控制在 Transformer 机器翻译中的应用

本文提出了一种在 Transformer 架构中引入 context gates 的方法，以控制源和目标的贡献。此外，还提出了一种规范化方法，以自动产生的点间互信息来指导门控的学习。在 4 个翻译数据集上的实验证明，该模型相对于强基线模型提高 1.0 的 BLEU 分数。

Aug, 2019

基于 Transformer 的在线端到端自动语音识别

本文提出了一种基于 Transformer 的块处理方法来解决整个输入序列必须用于计算自注意力的问题，并结合 MoChA 算法实现了在线自动语音识别系统，实验结果表明，相较于传统的块处理方法，该方法在 WSJ 和 AISHELL-1 数据集上表现更加优异。

Oct, 2019

G-Adapter：面向图变换器网络的结构感知参数高效迁移学习

本文旨在探索将 Parameter-Efficient Fine-Tuning (PEFT) 技术应用于基于图的任务，提出了一种名为 G-Adapter 的新型结构感知 PEFT 方法，并使用 Bregman Proximal Point 方法进一步缓解特征分布变化问题，研究结果表明，G-Adapter 相对于现有的 PEFT 方法，在 9 个基于图的基准数据集上获得了最先进的性能，并且相比于传统的方法提供了巨大的内存节省。

May, 2023

图外部注意力增强变换器

Transformer 的图表示学习中，通过引入 Graph External Attention 提出了一种新的关注机制来隐式捕捉图之间的相关性，进而用于设计了更全面的图表示框架 GEAET。通过在基准数据集上进行的实验证明，GEAET 达到了最先进的经验性能。

May, 2024

循环线性变换

通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。

Oct, 2023

基于句间注意力机制改进基于 Transformer 的对话语音识别

本文提出了一种基于 Transformer 的端到端架构方法，在自动语音识别中精确建模跨话语的语境依赖，通过引入上下文感知残余注意机制，对先前语音的上下文进行编码，同时，还采用条件解码器框架将历史语言信息融入到当前预测中，结果表明该方法在几种公开对话语料库上都取得了持续的改进

Jul, 2022

时序预测变压器的校准：检测和适应基于情境的分布偏移

近年来，我们见证了将 Transformers 引入时间序列预测的成功。我们在数据生成的角度上阐述了现有的 Transformers 对于由时间上下文驱动的分布变化容易受到影响，不论是已观测到还是未观测到的。本文介绍了一种普适的校准方法，用于检测和调整训练过的 Transformer 模型中的上下文驱动分布变化。我们提出了一种新颖的 CDS 检测器 ——“基于残差的 CDS 检测器” 或 “Reconditionor”，通过评估预测残差与其对应上下文之间的互信息，量化模型对于 CDS 的脆弱性。高 Reconditionor 分数表示严重易受影响，因此需要模型调整。在这种情况下，我们提出了一个简单但有效的模型校准框架 ——“样本级上下文适配器” 或 “SOLID”。该框架涉及对于提供的测试样本进行上下文相似数据集的策划，并通过有限步骤对模型的预测层进行微调。我们的理论分析表明，该调整策略能够在偏差和方差之间实现最佳平衡。值得注意的是，我们提出的 Reconditionor 和 SOLID 适用于各种 Transformers，并且易于调整。大量实验证明 SOLID 持续增强了当前真实世界数据集上最先进的 Transformers 的性能，特别是在由提出的 Reconditionor 检测到的具有实质性 CDS 的情况下，从而验证了校准方法的有效性。

Oct, 2023

边缘变压器的系统化概括

提出了一种新型边缘 Transformer 模型，实现了自然语言理解中的系统化概括，并在关系推理、语义解析和依赖解析等几个设置中优于 Relation-aware、Universal 和传统 Transformer 基线模型。

Dec, 2021

增强属性聚类的图形转换：一种创新的图形转换器方法

本研究引入一种新的方法，将图自编码器与图变压器相结合，称为 GTAGC，以解决传统方法无法捕捉图中节点间复杂全局依赖情况的问题，该方法在基准数据集上表现出卓越性能，展现了图聚类方面的应用前景。

Jun, 2023