RMT：记忆网络与视觉转换器的结合

Sep, 2023

RMT：记忆网络与视觉转换器的结合

RMT: Retentive Networks Meet Vision Transformers

Qihang Fan, Huaibo Huang, Mingrui Chen, Hongmin Liu, Ran He

TL;DR我们结合了 RetNet 和 Transformer 提出了 RMT，通过引入显式衰减和空间先验知识的方式，使得 RMT 在计算机视觉任务中表现出卓越的性能。

Abstract

transformer first appears in the field of natural language processing and is later migrated to the computer vision domain, where it demonstrates excellent →

transformer retentive network rmt computer vision performance

发现论文，激发创造

CMT: 卷积神经网络与视觉 Transformer 相遇

本文提出了一种基于 Transformer 和 CNN 的新型混合神经网络（CMTs），通过捕捉图像中的长程依赖和建模本地特征，实现了比现有的 DeiT 和 EfficientNet 更高的精度和更小的计算成本。

Jul, 2021

循环记忆变压器

本文提出并研究了一种记忆增强的分段循环 Transformer 模型 (RMT)，通过通过加入特殊的记忆 tokens 实现，该模型能够存储和处理局部和全局信息，传递长序列片段之间的信息，具有学习长期依赖性和内存处理方面的潜力.

Jul, 2022

保留网络：大型语言模型的转换器接班者

本文提出了 RetNet 作为大型语言模型的基础架构，同时实现了训练并行性、低成本推理和良好的性能表现。通过理论推导，提出了序列建模的 retention 机制，支持三种计算模式，即并行、循环和分块循环，并在语言建模上取得了良好的结果。

Jul, 2023

训练视觉 Transformer 进行图像检索

本文提出一种基于变换器的图像检索方法，通过采用视觉变换器生成图像描述符并使用度量学习目标进行训练，结合对比损失和微分熵正则化，相比于卷积方法，提高了图像检索性能，特别是对于短向量表示和低分辨率图像。

Feb, 2021

走向强健的视觉 Transformer

研究发现，很多 ViT 组件对鲁棒性有害，因此提出使用鲁棒组件构建 Robust Vision Transformer（RVT）网络，并进一步提出 position-aware attention scaling 和 patch-wise augmentation 两种方法增强其性能，实验结果显示 RVT 在多项鲁棒性测试中表现优秀。

May, 2021

用于语义对应的循环变压器网络

本文提出了利用循环变压器网络（RTNs）对语义相似图像进行密集对应的方法，在迭代过程中估计图像间的空间变换，以及使用这些变换来生成对齐的卷积激活，通过直接估算两幅图像间的变换，而非独立正则化每个图像，我们证明了更高的精度可以得到，同时使用一种基于提出的分类损失的弱监督训练技术。利用 RTNs，在语义对应的多个基准测试中，实现了最先进的性能。

Oct, 2018

一个重新参数化的视觉变换器（ReVT）用于领域通用的语义分割

基于数据增强驱动的方法，使用重新参数化的视觉 Transformer（ReVT）和多模型训练后的权重平均化，实现语义分割的域通用化，在多个基准数据集上实现了 47.3％（之前的技术：46.3％）的小型模型和 50.1％（之前的技术：47.8％）的中型模型的最新 mIoU 性能，同时需要更少的参数，并且帧速率更高，与最佳之前的技术相比，易于实施，而且在推断期间不会增加任何计算复杂度。

Aug, 2023

基于多 Levenshtein Transformer 的基于例子的神经机器翻译模型

提出了一种新颖的基于检索增强的 Levenshtein Transformer 架构，旨在提高 Retrieval-Augmented Machine Translation 的透明度，并通过编辑多个模糊匹配的示例来改善翻译得分。

Oct, 2023

DTMT: 一种新颖的深度过渡架构用于神经机器翻译

本研究采用深度转移递归神经网络的模型构架方法，增加了模型的深度，通过多次非线性转化的隐藏状态转移以及线性变换路径的设计，有效解决了梯度消失的问题，显著提高了翻译质量，其中 DTMT 在中文 - 英文翻译任务中的 BLEU 分数比 Transformer 模型提高了 2.09 分，并在 WMT14 英德、英法翻译任务上显示出优异的质量。

Dec, 2018

ViTCN：用于推理的视觉转换器对比网络

提出了基于 Contrastive Perceptual Inference network (CoPiNet) 的 Vision Transformer Contrastive Network，结合心理学、认知学和教育学，采用先进的 Vision Transformer 架构，从像素级输入和全局特征上进一步改进了机器处理和推理空间 - 时间信息在 RAVEN 数据集上的能力。

Mar, 2024