从自然剧本知识中学习可转移的时空表示
本论文提出了一种通用且灵感来源于对2D图像分析成功的语义转移技术的视频理解方法,通过测试视频和具有已知语义参考视频之间的对应关系,将参考的语义转移到测试视频。我们讨论了两种匹配方法,并将其应用于视频字幕,视频摘要,时间动作检测和声音预测等任务,并在LSMDC'16 benchmark,SumMe和TVSum benchmarks,Thumos2014 benchmark和Greatest Hits benchmark上取得了优异的表现。
Dec, 2016
提出了一种基于文本提示的高分辨率视频查询的视觉-语言神经框架,名为Bi-directional Spatio-Temporal Learning(BiST)。结果表明,BiST在视频段落检索(AVSD)基准测试中取得了有竞争力的性能并产生了合理的响应。另外,在 TGIF-QA 基准测试中,BiST模型比先前的方法表现更好。
Oct, 2020
本文通过对四个最新的基于图像的视角的统一,提出了一种可以很好地概括所有这些方法的简单目标,该目标鼓励同一视频中的时间持久特征,在不同的无监督框架、预训练数据集、下游数据集和骨干架构中效果惊人,我们从该研究中得出了一系列有趣的观察结果,例如,即使时间跨度为60秒,鼓励长时间持久性也可以很有效。
Apr, 2021
提出了一种名为 VITO 的简单范式,通过对动态视频帧的自我监督学习,有效地学习图像表示,该方法实现了视频预训练模型在语义分割和对象检测等任务上与ImageNet预训练模型性能相近甚至更好的表现,未来视频预训练有望成为学习图像表示的新默认方法。
Oct, 2022
本论文基于CLIP模型,提出了一种名为STAN的时空建模机制,用于将图像-文本预训练模型扩展到视频领域,并在视频文本检索和视频识别等多项任务中展现了其优越性。
Jan, 2023
本论文分析了导致视频模型性能下降的因素——语言监督失真,提出了一种去除降级的预训练策略,并采用排序任务同时使用掩蔽技术进行可扩展的训练,得到了一系列新的模型。
May, 2023
DiST是一种双编码器结构,其中预训练的基础模型充当空间编码器,引入了轻量级网络作为时间编码器,通过插入一个集成分支来融合时空信息,从而实现了视频的空间和时间解耦学习,提高了性能表现。
Sep, 2023
我们在这篇论文中研究了从模型和数据的角度来展示图像到视频转换的挑战,并提出了一种名为Mug-STAN的简单而有效的框架,通过解决非一般化时序建模和部分不匹配的视频文本数据的问题,将图像-文本模型扩展到多样化的视频任务和视频-文本数据。
Nov, 2023
通过基于 VidSitu 数据集的细节导向字幕和层级损失,我们改进了 contrastive language image pretraining (CLIP) 模型,提高了其对细粒度和句法的理解能力,并在不同任务中取得了稳定的改进。
Jan, 2024
VideoGPT+ combines the benefits of image and video encoders to improve video understanding, achieving enhanced performance across multiple video benchmarks, and is evaluated using VCGBench-Diverse, a comprehensive benchmark covering diverse video types and dynamics.
Jun, 2024