可切换的时间传播网络
提出了一种新颖的 “时间知识传播(TKP)” 方法,该方法通过将视频表示网络学到的时间知识传播到图像表示网络来解决人物重识别问题中图像和视频特征不匹配的问题。通过大量实验,证明了该方法的有效性,并且在两个广泛使用的数据集上的综合结果明显优于现有的最先进方法。
Aug, 2019
本文提出了一种用于盲视频时间一致性的方法,该方法旨在解决仅在每个视频帧上独立应用图像处理算法导致的时间不一致问题。我们展示了通过在 Deep Video Prior(DVP)视频上训练卷积神经网络实现时间一致性的方法,并针对挑战性的多模态不一致性问题提出了一种经过精心设计的迭代加权训练策略。我们通过 7 个计算机视觉任务的广泛定量和感知实验展示了我们的方法的有效性,并证明了我们的方法在盲视频时间一致性方面优于现有技术水平。
Jan, 2022
提出了一种特征层面上的通用时间金字塔网络(Temporal Pyramid Network),可以在 2D 或 3D 骨干网络中灵活地进行插拔式集成,通过构建功能层次结构来捕捉不同节奏的动作实例,并在几个行动识别数据集上显示出比其他具有挑战性的基线更为一致的改进。
Apr, 2020
本文利用深度递归神经网络,结合短期、长期以及感知上的损失,为视频处理提供了一种基于帧的将原始视频和处理后的视频作为输入,生成时间上连贯的视频的方法,实现了对多种需求的处理,且无需光流计算,具有实时性能。
Aug, 2018
帧质量下降是视频理解领域中的主要挑战之一。为了弥补由于帧质量下降而引起的信息损失,最近的方法利用基于 Transformer 的集成模块来获得时空信息。然而,这些集成模块过于复杂和繁重。在本文中,我们提出了一个简洁且统一的框架,称为时空提示网络 (STPN)。它通过动态调整骨干网络中的输入特征,可以高效地提取稳健准确的视频特征。此外,STPN 易于推广到各种视频任务,因为它不包含任务特定的模块。没有花哨的设计,STPN 在三个广泛使用的数据集上取得了最先进的性能,涵盖了不同的视频理解任务,例如用于视频对象检测的 ImageNetVID,用于视频实例分割的 YouTubeVIS 以及用于视觉目标跟踪的 GOT-10k。
Feb, 2024
如何有效地探索时空特征对于视频着色至关重要。我们开发了基于内存的特征传播模块,它可以与来自相隔较远的帧的特征建立可靠的连接并减轻不准确的估计特征的影响。为了从每个帧中提取更好的特征,我们使用大型预训练视觉模型来指导每个帧的特征估计,使得估计的特征能够模拟复杂场景。此外,我们注意到相邻帧通常包含相似的内容。为了更好地利用空间和时序特征,我们开发了一个局部注意力模块来聚合相邻帧的特征。我们将基于内存的特征传播模块、大型预训练视觉模型引导的特征估计模块和局部注意力模块组合成一个端到端可训练的网络(称为 ColorMNet),并展示其在基准数据集和真实场景中的优异表现。源代码和预训练模型可在 https://github.com/yyang181/colormnet 获得。
Apr, 2024
本文提出了一个自适应提案生成网络(APGN)来解决视频中的时间句子定位问题,使用前景 - 背景分类和提议生成来提高效率和减少冗余,并通过上下文交互增强生成提议的语义,取得了显著的优于先前最先进方法的性能。
Sep, 2021