RMT:记忆网络与视觉转换器的结合
本文提出了一种基于 Transformer 和 CNN 的新型混合神经网络(CMTs),通过捕捉图像中的长程依赖和建模本地特征,实现了比现有的 DeiT 和 EfficientNet 更高的精度和更小的计算成本。
Jul, 2021
本文提出并研究了一种记忆增强的分段循环 Transformer 模型 (RMT),通过通过加入特殊的记忆 tokens 实现,该模型能够存储和处理局部和全局信息,传递长序列片段之间的信息,具有学习长期依赖性和内存处理方面的潜力.
Jul, 2022
本文提出了 RetNet 作为大型语言模型的基础架构,同时实现了训练并行性、低成本推理和良好的性能表现。通过理论推导,提出了序列建模的 retention 机制,支持三种计算模式,即并行、循环和分块循环,并在语言建模上取得了良好的结果。
Jul, 2023
本文提出一种基于变换器的图像检索方法,通过采用视觉变换器生成图像描述符并使用度量学习目标进行训练,结合对比损失和微分熵正则化,相比于卷积方法,提高了图像检索性能,特别是对于短向量表示和低分辨率图像。
Feb, 2021
研究发现,很多 ViT 组件对鲁棒性有害,因此提出使用鲁棒组件构建 Robust Vision Transformer(RVT)网络,并进一步提出 position-aware attention scaling 和 patch-wise augmentation 两种方法增强其性能,实验结果显示 RVT 在多项鲁棒性测试中表现优秀。
May, 2021
本文提出了利用循环变压器网络(RTNs)对语义相似图像进行密集对应的方法,在迭代过程中估计图像间的空间变换,以及使用这些变换来生成对齐的卷积激活,通过直接估算两幅图像间的变换,而非独立正则化每个图像,我们证明了更高的精度可以得到,同时使用一种基于提出的分类损失的弱监督训练技术。利用 RTNs,在语义对应的多个基准测试中,实现了最先进的性能。
Oct, 2018
基于数据增强驱动的方法,使用重新参数化的视觉 Transformer(ReVT)和多模型训练后的权重平均化,实现语义分割的域通用化,在多个基准数据集上实现了 47.3%(之前的技术:46.3%)的小型模型和 50.1%(之前的技术:47.8%)的中型模型的最新 mIoU 性能,同时需要更少的参数,并且帧速率更高,与最佳之前的技术相比,易于实施,而且在推断期间不会增加任何计算复杂度。
Aug, 2023
提出了一种新颖的基于检索增强的 Levenshtein Transformer 架构,旨在提高 Retrieval-Augmented Machine Translation 的透明度,并通过编辑多个模糊匹配的示例来改善翻译得分。
Oct, 2023
本研究采用深度转移递归神经网络的模型构架方法,增加了模型的深度,通过多次非线性转化的隐藏状态转移以及线性变换路径的设计,有效解决了梯度消失的问题,显著提高了翻译质量,其中 DTMT 在中文 - 英文翻译任务中的 BLEU 分数比 Transformer 模型提高了 2.09 分,并在 WMT14 英德、英法翻译任务上显示出优异的质量。
Dec, 2018
提出了基于 Contrastive Perceptual Inference network (CoPiNet) 的 Vision Transformer Contrastive Network, 结合心理学、认知学和教育学,采用先进的 Vision Transformer 架构,从像素级输入和全局特征上进一步改进了机器处理和推理空间 - 时间信息在 RAVEN 数据集上的能力。
Mar, 2024