ConvTransformer: 用于视频帧合成的卷积变换器网络

Nov, 2020

ConvTransformer: 用于视频帧合成的卷积变换器网络

ConvTransformer: A Convolutional Transformer Network for Video Frame Synthesis

Zhouyong Liu, Shun Luo, Wubin Li, Jingben Lu, Yufan Wu...

TL;DR本文提出了一种名为 ConvTransformer 的深层卷积神经网络结构，通过注意力机制学习序列数据之间的依赖关系，用于视频帧合成，相较于传统的卷积 LSTM 方法可实现更好的并行计算效果。

Abstract

Deep convolutional neural networks (CNNs) are powerful models that have achieved excellent performance on difficult computer vision tasks. Although CNNs perform well whenever large labeled training samples are available, they work badly on →

convolutional neural networks convtransformer video frame synthesis attention layer convlstm

发现论文，激发创造

基于卷积和 Transformer 的视频帧插帧网络

本文提出一种创新的方法，将 Transformer 编码器和卷积特征相结合，从而减少了近 50% 的内存负担，在推理时间上比现有的基于 Transformer 的插值方法运行速度提高了近四倍，并引入双编码器架构来结合局部相关的卷积和远程相关的 Transformer。在复杂运动方面进行了定量评估，展示了所提出方法的鲁棒性，与最先进的插值网络相比，取得了竞争性能。

Jul, 2023

视频帧插值变换器

本论文提出了一种基于 Transformer 模型的视频插帧方法，利用自注意力机制实现了内容关注的多尺度帧间聚合，并引入本地注意力机制以及时间与空间的分离策略以优化性能。实验证明该方法在多个基准数据集上得到了优于现有方法的表现。

Nov, 2021

使用 Transformer 的视频帧插值

使用 Transformer 和跨尺度窗口关注机制的视频帧插值方法，在多个基准测试上达到了新的最先进结果。

May, 2022

使用流变换器进行视频帧插值

我们提出了一种视频帧插值流 Transformer 的方法，通过将运动动态从光流中引入自注意机制，使得我们的框架适用于插值具有大运动的帧，同时保持相对较低的复杂性，并通过构建多尺度架构来提高整体性能，实验证明该方法能够生成比现有方法更好视觉质量的插值帧。

Jul, 2023

卷积视觉转换器用于深度伪造视频检测

本文提出了一种使用卷积视觉 Transformer 及卷积神经网络架构用于检测 Deepfakes 的方法，并在 DeepFake Detection Challenge Dataset 上进行了实验，取得了 91.5％的准确度、0.91 的 AUC 值和 0.32 的损失值。

Feb, 2021

TEC-Net: 视觉 Transformer 集成卷积神经网络用于医学图像分割

本研究采用混合卷积神经网络和 Transformer 的混合结构，提出了一种具有自适应特征提取能力和具有全局信息建模的方法，用于医学图像分割。实验结果表明，该方法比现有的方法具有更好的医学图像分割结果。

Jun, 2023

CMT: 卷积神经网络与视觉 Transformer 相遇

本文提出了一种基于 Transformer 和 CNN 的新型混合神经网络（CMTs），通过捕捉图像中的长程依赖和建模本地特征，实现了比现有的 DeiT 和 EfficientNet 更高的精度和更小的计算成本。

Jul, 2021

视频字幕的时间可变卷积编 - 解码神经网络

本文提出了一种新颖的设计，即 TDConvED，它在视频字幕生成中充分利用编码器和解码器网络中的卷积，具有卷积块结构，在编码器中进一步配备时间变形卷积以实现时间采样的自由形变，并利用时间关注机制进行句子生成，在 MSVD 和 MSR-VTT 视频字幕生成数据集上进行了广泛实验，在与常规基于 RNN 的编码器解码器技术进行比较时获得更好的结果。

May, 2019

CPTR: 图像标注的全变压器网络

本研究提出了 CaPtion TransformeR （简称 CPTR）这一基于序列到序列（sequence-to-sequence) 预测方法的图片标注任务模型。与传统的 “CNN+Transformer” 设计范式不同，本研究的模型从一开始就可以在每个编码层中对全局上下文进行建模，并完全摒弃了卷积层。在 MSCOCO 数据集上进行的大量实验证明了 CPTR 模型的有效性，本研究还提供了全 Transformer 架构中编码器中各个 Patch 之间的自注意力以及解码器中单词到 Patch 的注意力等详细的可视化效果。

Jan, 2021

驯服 Transformer 的高分辨率图像合成

结合卷积神经网络与 transformers 模型的特点，实现了生成高分辨率图像的任务，并取得了 ImageNet 中类别有条件下的自回归模型的最优结果

Dec, 2020