驯服 Transformer 的高分辨率图像合成
本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾,包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点,并提出了未来的研究方向。
Jan, 2021
本研究提出一种新的基于 Transformer 的图像融合方法,采用多尺度融合策略同时关注局部和全局信息,使用卷积神经网络与 Transformer 分支捕捉局部和长程特征,经对比实验表明,该方法优于当下多种融合算法。
Jul, 2021
本文提出了一种名为 Restoration Transformer 的有效 Transformers 模型,通过几个关键设计,使其能够捕捉长距离像素交互,同时仍适用于大图像,在图像去噪、去模糊和降雨方面达到了最先进的效果。
Nov, 2021
本文提出了一种名为 ConvTransformer 的深层卷积神经网络结构,通过注意力机制学习序列数据之间的依赖关系,用于视频帧合成,相较于传统的卷积 LSTM 方法可实现更好的并行计算效果。
Nov, 2020
本文提出了一种基于 Transformer 和 CNN 的新型混合神经网络(CMTs),通过捕捉图像中的长程依赖和建模本地特征,实现了比现有的 DeiT 和 EfficientNet 更高的精度和更小的计算成本。
Jul, 2021
通过整合转换器模型的多尺度融合策略,本研究提出了一种新的图像融合方法,以克服使用评价指标作为损失函数所带来的局限性,并改善了整体方法的效果。
Feb, 2024
混合图像技术(hybrid images)与深度学习视觉模型在研究人类视觉系统的多尺度图像处理方面具有定性一致性且卷积神经网络(CNN)和 Transformer 在视觉皮层腹侧通路中的前向信息传递建模方面表现优异。
Mar, 2022
本文提出了一种叫做 “长短时对比学习(LSTCL)” 的学习程序,可以让视频变压器模型在预测来自更长的时间范围内捕获的时序上下文的同时,学习一个有效的剪辑级表示,并在多项视频基准测试上取得了有竞争力的表现,成为有监督基于图像的预训练的有力替代方案。
Jun, 2021