可切换的时间传播网络

Apr, 2018

Switchable Temporal Propagation Network

Sifei Liu, Guangyu Zhong, Shalini De Mello, Jinwei Gu, Varun Jampani...

TL;DR本文提出了一个可学习的统一框架，用于传播视频图像的各种视觉属性，包括但不限于颜色、高动态范围（HDR）和分割信息，应用于视频处理中的三个任务：基于几个彩色关键帧进行灰度视频的上色、从低动态范围（LDR）视频和几个 HDR 帧生成 HDR 视频，以及从第一个帧传播分割掩码。我们的方法相对于现有技术方法，能够更准确和高效地完成这三个任务。

Abstract

Videos contain highly redundant information between frames. Such redundancy has been extensively studied in video compression and encoding, but is less explored for more advanced video processing. In this paper, we propose a learnable unified framework for propagating a variety of

video processing temporal propagation network visual properties colorization hdr video generation

发现论文，激发创造

视频传播网络

该研究提出了使用视频传播网络进行语义分割的方法，该方法使用时不需要访问未来帧，并且与基于任务的最佳方法相比具有更高的性能。

Dec, 2016

基于时序知识传播的图像到视频的行人再识别

提出了一种新颖的 “时间知识传播（TKP）” 方法，该方法通过将视频表示网络学到的时间知识传播到图像表示网络来解决人物重识别问题中图像和视频特征不匹配的问题。通过大量实验，证明了该方法的有效性，并且在两个广泛使用的数据集上的综合结果明显优于现有的最先进方法。

Aug, 2019

视频深度先验及其在视频一致性和传播中的应用

本文提出了一种用于盲视频时间一致性的方法，该方法旨在解决仅在每个视频帧上独立应用图像处理算法导致的时间不一致问题。我们展示了通过在 Deep Video Prior（DVP）视频上训练卷积神经网络实现时间一致性的方法，并针对挑战性的多模态不一致性问题提出了一种经过精心设计的迭代加权训练策略。我们通过 7 个计算机视觉任务的广泛定量和感知实验展示了我们的方法的有效性，并证明了我们的方法在盲视频时间一致性方面优于现有技术水平。

Jan, 2022

深度视频颜色传播

本研究提出了一框架，结合了本地和全局策略，来利用深度学习技术实现视频中颜色的传播，使得颜色的传播更加稳定，并且利用了语义信息的特点，具有很高的优越性。

Aug, 2018

动作识别的时间金字塔网络

提出了一种特征层面上的通用时间金字塔网络（Temporal Pyramid Network），可以在 2D 或 3D 骨干网络中灵活地进行插拔式集成，通过构建功能层次结构来捕捉不同节奏的动作实例，并在几个行动识别数据集上显示出比其他具有挑战性的基线更为一致的改进。

Apr, 2020

视频中的动作识别时间分段网络

该论文提出了一种称之为 “时间段网络” 的视频级框架，可以学习视频中的动作模型，并在四个具有挑战性的动作识别基准测试中实现了最新的性能。

May, 2017

学习盲视频时间一致性

本文利用深度递归神经网络，结合短期、长期以及感知上的损失，为视频处理提供了一种基于帧的将原始视频和处理后的视频作为输入，生成时间上连贯的视频的方法，实现了对多种需求的处理，且无需光流计算，具有实时性能。

Aug, 2018

稳健视频特征提取的时空提示网络

帧质量下降是视频理解领域中的主要挑战之一。为了弥补由于帧质量下降而引起的信息损失，最近的方法利用基于 Transformer 的集成模块来获得时空信息。然而，这些集成模块过于复杂和繁重。在本文中，我们提出了一个简洁且统一的框架，称为时空提示网络 (STPN)。它通过动态调整骨干网络中的输入特征，可以高效地提取稳健准确的视频特征。此外，STPN 易于推广到各种视频任务，因为它不包含任务特定的模块。没有花哨的设计，STPN 在三个广泛使用的数据集上取得了最先进的性能，涵盖了不同的视频理解任务，例如用于视频对象检测的 ImageNetVID，用于视频实例分割的 YouTubeVIS 以及用于视觉目标跟踪的 GOT-10k。

Feb, 2024

ColorMNet：基于记忆的深度时空特征传播网络用于视频上色

如何有效地探索时空特征对于视频着色至关重要。我们开发了基于内存的特征传播模块，它可以与来自相隔较远的帧的特征建立可靠的连接并减轻不准确的估计特征的影响。为了从每个帧中提取更好的特征，我们使用大型预训练视觉模型来指导每个帧的特征估计，使得估计的特征能够模拟复杂场景。此外，我们注意到相邻帧通常包含相似的内容。为了更好地利用空间和时序特征，我们开发了一个局部注意力模块来聚合相邻帧的特征。我们将基于内存的特征传播模块、大型预训练视觉模型引导的特征估计模块和局部注意力模块组合成一个端到端可训练的网络（称为 ColorMNet），并展示其在基准数据集和真实场景中的优异表现。源代码和预训练模型可在 https://github.com/yyang181/colormnet 获得。

Apr, 2024

视频中时间句子定位的自适应提议生成网络

本文提出了一个自适应提案生成网络（APGN）来解决视频中的时间句子定位问题，使用前景 - 背景分类和提议生成来提高效率和减少冗余，并通过上下文交互增强生成提议的语义，取得了显著的优于先前最先进方法的性能。

Sep, 2021