从自然剧本知识中学习可转移的时空表示

Sep, 2022

从自然剧本知识中学习可转移的时空表示

Learning Transferable Spatiotemporal Representations from Natural Script Knowledge

Ziyun Zeng, Yuying Ge, Xihui Liu, Bin Chen, Ping Luo...

TL;DR本研究提出了一种利用语义转录排序来增强可转移的时空表示学习的方法，通过将视觉模型与自然转录的语言知识结合起来，使视频模型能够在时间上建立背景并重塑叙述性的转录，从而实现在多样化数据集上表现出色。

Abstract

pre-training on large-scale video data has become a common recipe for learning transferable spatiotemporal representations in recent years. Despite some progress, existing methods are mostly limited to highly cur

发现论文，激发创造

时域镶嵌: 视频分析的统一方法

本论文提出了一种通用且灵感来源于对2D图像分析成功的语义转移技术的视频理解方法，通过测试视频和具有已知语义参考视频之间的对应关系，将参考的语义转移到测试视频。我们讨论了两种匹配方法，并将其应用于视频字幕，视频摘要，时间动作检测和声音预测等任务，并在LSMDC'16 benchmark，SumMe和TVSum benchmarks，Thumos2014 benchmark和Greatest Hits benchmark上取得了优异的表现。

Dec, 2016

BiST: 视频对话的双向时空推理

提出了一种基于文本提示的高分辨率视频查询的视觉-语言神经框架，名为Bi-directional Spatio-Temporal Learning（BiST）。结果表明，BiST在视频段落检索（AVSD）基准测试中取得了有竞争力的性能并产生了合理的响应。另外，在 TGIF-QA 基准测试中，BiST模型比先前的方法表现更好。

Oct, 2020

无监督时空表征学习大规模研究

本文通过对四个最新的基于图像的视角的统一，提出了一种可以很好地概括所有这些方法的简单目标，该目标鼓励同一视频中的时间持久特征，在不同的无监督框架、预训练数据集、下游数据集和骨干架构中效果惊人，我们从该研究中得出了一系列有趣的观察结果，例如，即使时间跨度为60秒，鼓励长时间持久性也可以很有效。

Apr, 2021

自监督视频预训练产生强大的图像表示

提出了一种名为 VITO 的简单范式，通过对动态视频帧的自我监督学习，有效地学习图像表示，该方法实现了视频预训练模型在语义分割和对象检测等任务上与ImageNet预训练模型性能相近甚至更好的表现，未来视频预训练有望成为学习图像表示的新默认方法。

Oct, 2022

重新审视基于CLIP的图像到视频知识传递的时间建模

本论文基于CLIP模型，提出了一种名为STAN的时空建模机制，用于将图像-文本预训练模型扩展到视频领域，并在视频文本检索和视频识别等多项任务中展现了其优越性。

Jan, 2023

TVTSv2：学习开箱即用的大规模时空视觉表示

本论文分析了导致视频模型性能下降的因素——语言监督失真，提出了一种去除降级的预训练策略，并采用排序任务同时使用掩蔽技术进行可扩展的训练，得到了一系列新的模型。

May, 2023

高效图像到视频迁移学习的空间和时间解耦

DiST是一种双编码器结构，其中预训练的基础模型充当空间编码器，引入了轻量级网络作为时间编码器，通过插入一个集成分支来融合时空信息，从而实现了视频的空间和时间解耦学习，提高了性能表现。

Sep, 2023

Mug-STAN：适用于通用视频理解的图像语言预训练模型的调整

我们在这篇论文中研究了从模型和数据的角度来展示图像到视频转换的挑战，并提出了一种名为Mug-STAN的简单而有效的框架，通过解决非一般化时序建模和部分不匹配的视频文本数据的问题，将图像-文本模型扩展到多样化的视频任务和视频-文本数据。

Nov, 2023

FiGCLIP: 细粒度CLIP适应通过密集标注视频

通过基于 VidSitu 数据集的细节导向字幕和层级损失，我们改进了 contrastive language image pretraining (CLIP) 模型，提高了其对细粒度和句法的理解能力，并在不同任务中取得了稳定的改进。

Jan, 2024

VideoGPT+: 图像和视频编码器的综合应用以提升视频理解能力

VideoGPT+ combines the benefits of image and video encoders to improve video understanding, achieving enhanced performance across multiple video benchmarks, and is evaluated using VCGBench-Diverse, a comprehensive benchmark covering diverse video types and dynamics.

Jun, 2024