通过时间聚合和循环实现深度盲视频去马赛克

CVPRMay, 2019

通过时间聚合和循环实现深度盲视频去马赛克

Deep Blind Video Decaptioning by Temporal Aggregation and Recurrence

Dahun Kim, Sanghyun Woo, Joon-Young Lee, In So Kweon

TL;DR本文提出了一个基于编码器 - 解码器模型的快速视频字幕去除框架，使用多个源帧和残差连接来处理视频中的遮挡和缺失，进一步通过循环反馈实现对时间上的连续性和缺失像素位置的准确预测，实现了实时的视频去字幕操作。

Abstract

blind video decaptioning is a problem of automatically removing text overlays and inpainting the occluded parts in videos without any input masks. While recent →

blind video decaptioning deep learning encoder-decoder model inpainting temporal coherence

发现论文，激发创造

深度视频修复

本文提出了一种基于深度学习的快速视频修复网络，结合图像编解码模型，利用邻帧信息综合填充未知视频区域，并运用循环反馈和时间存储模块确保输出的时空连续性，与之前的视频修复方法相比，其结果更为语义正确和时空平滑，且可用于视频重定向任务并生成优质视觉效果。

May, 2019

视频字幕解码器的深度挖掘

本篇研究针对视频字幕模型的解码问题，通过三种技术改进模型的性能，包括使用变分 Dropout 和层归一化改善过拟合问题、提出在线评估模型性能以选择最佳测试检查点的方法、提出专业学习的新训练策略。在 Microsoft Research Video Description Corpus (MSVD) 和 MSR-Video to Text (MSR-VTT) 数据集上进行的实验证明，相较于之前最先进的模型，我们的模型在 BLEU、CIDEr、METEOR 和 ROUGE-L 指标上获得了显著的成果，其中在 MSVD 数据集上提升了高达 18%，在 MSR-VTT 数据集上提升了 3.5%。

Jan, 2020

深度盲图像修复

提出了一种盲图像修复算法，通过利用残差学习与编码解码结构来恢复缺失信息，以处理任意形状的损坏区域。

Dec, 2017

使用重新聚焦的视频编码器进行视频字幕

本文提出了一种新的递归视频编码方法和新的视觉空间特征，以改进视频字幕生成任务的效果，实验结果表明，该方法能显著提高视频字幕生成质量。

Jul, 2019

视频字幕的时间可变卷积编 - 解码神经网络

本文提出了一种新颖的设计，即 TDConvED，它在视频字幕生成中充分利用编码器和解码器网络中的卷积，具有卷积块结构，在编码器中进一步配备时间变形卷积以实现时间采样的自由形变，并利用时间关注机制进行句子生成，在 MSVD 和 MSR-VTT 视频字幕生成数据集上进行了广泛实验，在与常规基于 RNN 的编码器解码器技术进行比较时获得更好的结果。

May, 2019

深度视频修复检测

该研究探讨了视频修补检测技术，提出了一种双流编码器解码器体系结构和注意力模块的 VIDNet 方法，该模型采用误差级别分析数据增强处理 RGB 帧，进一步利用卷积 LSTM 模型对编码得到的多模态特征进行空间和时间关系的探索，并使用四个方向的局部注意力模块来检测像素是否被修补，实验结果表明 VIDNet 方法能够在各方面超越其他同类方法并且具有很好的泛化能力。

Jan, 2021

通过联合学习时空结构和空间细节进行视频修复

本文提出了一种新的基于数据驱动的视频修复方法，采用了深度学习的网络结构，包含了两个子网络，一个是基于 3D 完全卷积的时间结构推断网络，另一个是二维全卷积网络的空间细节修复网络，该方法能够更好的恢复缺失的区域，并且其效果优于以往的视频修复方法。

Jun, 2018

视频字幕重构网络

本文提出了一种重构网络（RecNet）的架构，该网络利用正反两个方向的流动来进行视频字幕生成，其编码器 - 解码器使用正向流产生编码视频语义特征的句子描述，两种类型的重构器则用于回溯流程并重新生成与解码器生成的隐藏状态序列基于的视频特征。实验结果表明，所提出的重构器网络能够提高编码器 - 解码器模型的性能，并显著提高视频字幕准确性。

Mar, 2018

利用强化学习重建和表示视频内容以进行字幕化

本研究提出了一种新颖的编码器 - 解码器 - 重构器结构（RecNet）修复网络，通过双向流的运用，从本地和全局的角度，利用先前生成的解码器隐藏状态序列，高效地重构视频特征，并通过增强学习、CIDEr 优化微调 RecNet 逐步提高视频字幕的性能

Jun, 2019

端到端视频字幕生成

本文提出了采用端到端训练的方法来实现视频描述生成，并在微软研究视频描述数据集 (MSVD) 和微软视频到文本数据集 (MSR-VTT) 上取得了最新的最优表现。

Apr, 2019