视频时序建模的双向多速率重建

Nov, 2016

Bidirectional Multirate Reconstruction for Temporal Modeling in Videos

Linchao Zhu, Zhongwen Xu, Yi Yang

TL;DR本研究提出一种基于未整理视频的无监督时间建模方法，使用多速率视觉循环模型对视频的每一帧进行编码，通过过去和未来相邻的视频片段作为时间上下文，重构两个时间转换以反映不同视图中的时间信息。将该方法应用于复杂事件检测和视频字幕生成中，其在 MEDTest-13 数据集上相对提高了 10.4％，在 YouTube2Text 数据集中的表现达到了最佳水平。

Abstract

Despite the recent success of neural networks in image feature learning, a major problem in the video domain is the lack of sufficient labeled data for learning to model temporal information. In this paper, we pr

neural networks video unsupervised learning temporal modeling multirate visual recurrent model

发现论文，激发创造

通过识别时间转换进行视频表示学习

本研究提出了一种新颖的自监督学习方法来学习对于动态运动变化有响应的视频表征，通过训练神经网络来区分不同的时间变换的视频序列，使得无需人工标注数据即可准确地识别视频中的不稳定运动并增强神经网络在小数据集上的训练。该方法经过实验证明，可显著提高 UCF101 和 HMDB51 上的动作识别的传递性能。

Jul, 2020

MLLM 作为视频叙述者：减轻视频片段检索中的模态不平衡

利用多模态大型语言模型 (MLLM) 的视觉文本理解能力，本研究以 MLLM 作为视频的叙述者，生成视频的文本描述，从而减少模态不平衡并提高时间定位的准确性。通过获取视频每个时间戳的文本叙述并构建带有时间信息的结构化文本段落，与视觉内容进行时间对齐。然后，将时间感知的叙述和相应的视频时间特征进行跨模态特征融合，生成语义增强的视频表示序列用于查询定位。接下来，引入了一种单模态的叙述 - 查询匹配机制，鼓励模型从上下文连贯的描述中提取互补信息，以改善检索效果。该方法在两个基准测试上进行了广泛实验，证明了其有效性和普适性。

Jun, 2024

循环视频修复变换器与引导变形注意力

本文提出了一种鲁棒、高效的循环视频修复转换器 ——RVRT, 它将局部相邻帧在全局循环框架内并行处理，并利用 “引导变形关注” 跨片段对齐预测多个相关位置，在基准数据集上达到了最先进的性能。

Jun, 2022

Mirasol3B：面向时间对齐和上下文多模态自回归模型

我们提出了一种多模态模型 Mirasol3B，通过自回归机制，将多媒体输入分别处理并建模，同时使用分段和合并机制来处理视频和音频序列的长依赖性，从而实现了在多模态基准测试上的最佳结果。

Nov, 2023

双向时间扩散模型 —— 用于保持时间连续的人物动画

本文提出了一种通过使用双向时间建模的去噪扩散模型生成与真实人类动画高度相似的方法。

Jul, 2023

视频超分辨率的时间建模再思考

本文提出了一种新颖的循环残差网络模型用于视频超分辨率，该模型相比于其他几种建模方法具有更高的计算效率和更好的超分辨率效果，取得了当前最好的结果。

Aug, 2020

电影式大脑景观：基于脑活动的高质量视频重建

通过对连续 fMRI 数据的渐进式脑掩蔽建模、多模式对比学习以及深度网络训练等方案，提出了 Mind-Video 模型，能够以对抗性指导的方式从连续谷氨酸受体成像数据中高质量地重建任意帧率的视频，并在语义分类和结构相似性指数等方面优于先前的最先进水平 45％，同时还具有生物可行性和可解释性。

May, 2023

学习预测和优化残差运动用于图像生成视频

本文提出了一个两阶段的生成框架来解决图像到视频转换的问题，其中视频从结构生成并通过时间信号进行调整。通过在面部表情重定位和人体姿势预测这两个任务中取得比现有方法优秀的结果，证明了我们方法的有效性。

Jul, 2018

DeepVideoMVS：基于重复时空融合的多视点视频立体匹配

该论文提出了一种在线多视角深度预测方法，使用 ConvLSTM cell 实现对过去一定量信息的压缩，并考虑了时间步之间的视点变化，通过对先前的深度预测进行位移实现细胞的隐藏态的传播。该方法在实时性能的基础上带来了显著的深度预测的提高，并在数百个室内场景中表现出了优异的状态，代码详见 https://thisURL。

Dec, 2020

一分钱之价（视觉）：自监督重建自然电影的脑活动

本文研究自我监督方法来重建 fMRI 记录的自然视频，通过编码和解码自然视频的循环一致性以及利用大量外部自然视频，在提高适用的训练数据、引入视频先验以及保持时序一致性等方面取得了重大突破，相比于传统的只依靠有限受监督数据的方法，本文所提出的方法在性能上有了显著的提升。同时，作者还提出了一种简单的针对自然视频的时间先验，进一步提高了视频帧率。

Jun, 2022