本文旨在向已有视频语言模型注入时间感,通过后预训练等方式实现,观察经过处理后的模型在时间感知任务中的性能提升情况,并在六个数据集上进行了零样本评估。
Jan, 2023
本文提出了一种面向视频任务的基于 Transformer 的模型,通过自监督学习并增加对视频帧之间时间轴的考虑,有效地消除了空间偏差,提升了模型对于时间动态的表征能力并实现了很好的视频分类效果。
Jul, 2022
本文提出了一个基于循环神经网络的编码器 - 解码器方法,利用双通道排名损失来回答带有时间维度的选择题,同时探讨了 “填空题” 形式的方法来更细致地理解视频内容,并从 TACoS、MPII-MD、MEDTest 14 数据集中收集了超过 1,000 小时的 109,895 视频片段和 390,744 个对应的问题。大量实验表明,我们的方法显著优于已有的基准模型。
Nov, 2015
本文提出了一种新的递归视频编码方法和新的视觉空间特征,以改进视频字幕生成任务的效果,实验结果表明,该方法能显著提高视频字幕生成质量。
Jul, 2019
这篇论文提出了一种基于循环神经网络和 3-D 卷积神经网络以及时间注意力机制的视频自动描述方法,并在 Youtube2Text 数据集上的 BLEU 和 METEOR 度量标准上超过了当前最先进的结果,并在更大更具挑战性的配对视频和自然语言描述数据集上进行了测试。
Feb, 2015
本文提出一种学习视频帧临时嵌入的方法,以便进行复杂的视频分析,利用互联网上大量的未标记的视频数据,通过将帧与其所处的时间上下文相关联来学习视频帧的时间嵌入,并通过使用多分辨率采样和困难负样本的数据增广来显著提高所学嵌入的质量,证明嵌入可以提高多个视频任务的性能,例如在无约束的互联网视频中检索、分类和时间顺序恢复。
May, 2015
该论文介绍了我们的解决方案,用于 Google Cloud 和 YouTube-8M 视频理解挑战的视频识别任务,我们通过各种时间建模方法对帧级特征进行聚合以提高多标签视频识别的准确性,并在 Kaggle 的公共测试集上取得了 82.75% 的性能提升。
Jul, 2017
本研究提出了一个新颖的问题,即视频时间轴建模,目的是通过一组与特定主题相关的视频创建与视频相关的时间轴,从而促进对所讲述故事的内容和结构的理解。通过构建一个现实的基准数据集 YouTube-News-Timeline,并提出了一套量化指标来全面评估和比较方法,我们进一步开发和评估了探索性的深度学习方法来解决这个问题。我们预计这项开拓性工作将为视频时间轴建模的进一步研究铺平道路。
Sep, 2023
通过对视频的各种形式进行联合分析(包括视频帧、音频和任何附带文本),我们提出了一种学习紧凑的多模态特征表示形式的方法,证明了多模态表示是互补的,可以在提高许多应用性能中发挥关键作用。
Apr, 2020
通过多任务学习模型,结合无监督视频预测和语言蕴涵生成任务,共享参数学习提取更丰富的视频编码器表示和更好的视频 - 标题解码器表示,显著提高视频字幕生成的性能,达到了多个标准数据集的最新水平。
Apr, 2017