ConvTransformer: 用于视频帧合成的卷积变换器网络
本文提出一种创新的方法,将 Transformer 编码器和卷积特征相结合,从而减少了近 50% 的内存负担,在推理时间上比现有的基于 Transformer 的插值方法运行速度提高了近四倍,并引入双编码器架构来结合局部相关的卷积和远程相关的 Transformer。在复杂运动方面进行了定量评估,展示了所提出方法的鲁棒性,与最先进的插值网络相比,取得了竞争性能。
Jul, 2023
本论文提出了一种基于 Transformer 模型的视频插帧方法,利用自注意力机制实现了内容关注的多尺度帧间聚合,并引入本地注意力机制以及时间与空间的分离策略以优化性能。实验证明该方法在多个基准数据集上得到了优于现有方法的表现。
Nov, 2021
我们提出了一种视频帧插值流 Transformer 的方法,通过将运动动态从光流中引入自注意机制,使得我们的框架适用于插值具有大运动的帧,同时保持相对较低的复杂性,并通过构建多尺度架构来提高整体性能,实验证明该方法能够生成比现有方法更好视觉质量的插值帧。
Jul, 2023
本文提出了一种使用卷积视觉 Transformer 及卷积神经网络架构用于检测 Deepfakes 的方法,并在 DeepFake Detection Challenge Dataset 上进行了实验,取得了 91.5%的准确度、0.91 的 AUC 值和 0.32 的损失值。
Feb, 2021
本研究采用混合卷积神经网络和 Transformer 的混合结构,提出了一种具有自适应特征提取能力和具有全局信息建模的方法,用于医学图像分割。实验结果表明,该方法比现有的方法具有更好的医学图像分割结果。
Jun, 2023
本文提出了一种基于 Transformer 和 CNN 的新型混合神经网络(CMTs),通过捕捉图像中的长程依赖和建模本地特征,实现了比现有的 DeiT 和 EfficientNet 更高的精度和更小的计算成本。
Jul, 2021
本文提出了一种新颖的设计,即 TDConvED,它在视频字幕生成中充分利用编码器和解码器网络中的卷积,具有卷积块结构,在编码器中进一步配备时间变形卷积以实现时间采样的自由形变,并利用时间关注机制进行句子生成,在 MSVD 和 MSR-VTT 视频字幕生成数据集上进行了广泛实验,在与常规基于 RNN 的编码器解码器技术进行比较时获得更好的结果。
May, 2019
本研究提出了 CaPtion TransformeR (简称 CPTR)这一基于序列到序列(sequence-to-sequence) 预测方法的图片标注任务模型。与传统的 “CNN+Transformer” 设计范式不同,本研究的模型从一开始就可以在每个编码层中对全局上下文进行建模,并完全摒弃了卷积层。在 MSCOCO 数据集上进行的大量实验证明了 CPTR 模型的有效性,本研究还提供了全 Transformer 架构中编码器中各个 Patch 之间的自注意力以及解码器中单词到 Patch 的注意力等详细的可视化效果。
Jan, 2021
结合卷积神经网络与 transformers 模型的特点,实现了生成高分辨率图像的任务,并取得了 ImageNet 中类别有条件下的自回归模型的最优结果
Dec, 2020