通过时间聚合和循环实现深度盲视频去马赛克
本文提出了一种基于深度学习的快速视频修复网络,结合图像编解码模型,利用邻帧信息综合填充未知视频区域,并运用循环反馈和时间存储模块确保输出的时空连续性,与之前的视频修复方法相比,其结果更为语义正确和时空平滑,且可用于视频重定向任务并生成优质视觉效果。
May, 2019
本篇研究针对视频字幕模型的解码问题,通过三种技术改进模型的性能,包括使用变分 Dropout 和层归一化改善过拟合问题、提出在线评估模型性能以选择最佳测试检查点的方法、提出专业学习的新训练策略。在 Microsoft Research Video Description Corpus (MSVD) 和 MSR-Video to Text (MSR-VTT) 数据集上进行的实验证明,相较于之前最先进的模型,我们的模型在 BLEU、CIDEr、METEOR 和 ROUGE-L 指标上获得了显著的成果,其中在 MSVD 数据集上提升了高达 18%,在 MSR-VTT 数据集上提升了 3.5%。
Jan, 2020
本文提出了一种新颖的设计,即 TDConvED,它在视频字幕生成中充分利用编码器和解码器网络中的卷积,具有卷积块结构,在编码器中进一步配备时间变形卷积以实现时间采样的自由形变,并利用时间关注机制进行句子生成,在 MSVD 和 MSR-VTT 视频字幕生成数据集上进行了广泛实验,在与常规基于 RNN 的编码器解码器技术进行比较时获得更好的结果。
May, 2019
该研究探讨了视频修补检测技术,提出了一种双流编码器解码器体系结构和注意力模块的 VIDNet 方法,该模型采用误差级别分析数据增强处理 RGB 帧,进一步利用卷积 LSTM 模型对编码得到的多模态特征进行空间和时间关系的探索,并使用四个方向的局部注意力模块来检测像素是否被修补,实验结果表明 VIDNet 方法能够在各方面超越其他同类方法并且具有很好的泛化能力。
Jan, 2021
本文提出了一种新的基于数据驱动的视频修复方法,采用了深度学习的网络结构,包含了两个子网络,一个是基于 3D 完全卷积的时间结构推断网络,另一个是二维全卷积网络的空间细节修复网络,该方法能够更好的恢复缺失的区域,并且其效果优于以往的视频修复方法。
Jun, 2018
本文提出了一种重构网络(RecNet)的架构,该网络利用正反两个方向的流动来进行视频字幕生成,其编码器 - 解码器使用正向流产生编码视频语义特征的句子描述,两种类型的重构器则用于回溯流程并重新生成与解码器生成的隐藏状态序列基于的视频特征。实验结果表明,所提出的重构器网络能够提高编码器 - 解码器模型的性能,并显著提高视频字幕准确性。
Mar, 2018
本研究提出了一种新颖的编码器 - 解码器 - 重构器结构(RecNet)修复网络,通过双向流的运用,从本地和全局的角度,利用先前生成的解码器隐藏状态序列,高效地重构视频特征 ,并通过增强学习、CIDEr 优化微调 RecNet 逐步提高视频字幕的性能
Jun, 2019