走向全面的语言-视频表示:语言模型增强的MSR-Video到文本数据集
本文探讨了如何从大型文本语料库中挖掘语言知识以帮助生成视频的自然语言描述,并将神经语言模型和分布式语义训练应用于最近的基于LSTM的视频描述体系结构。我们在一组Youtube视频和两个大型电影描述数据集上评估了我们的方法,在改善语法正确性的同时适度提高了描述质量。
Apr, 2016
本文研究了三种不同的联合语言-视觉神经网络模型,使用LSMDC16电影数据集评估模型在自然语言图像/视频注释和检索任务中的性能,并在标准排名和多项选择测试中取得优异的结果。
Sep, 2016
该论文旨在将来自不同模态的视频信息压缩为单一、紧凑的表示形式,以用于自由格式文本查询的视频检索任务。通过运用预训练的语义嵌入、自动语音识别和光学字符识别等方法,采用协作专家模型来聚合信息,具有良好的检索性能。
Jul, 2019
本文提出了一种高分辨率和多样化的视频-语言预训练模型(HD-VILA),它利用一个混合Transformer学习丰富的时空特征以及文本特征的交互,取得了10个VL理解任务和2个文本到视觉生成任务的最新结果
Nov, 2021
本文主攻文本到视频检索任务中的视频表示学习,在此基础上提出了一种受人类阅读策略启发的视觉表征学习方法,经实验证明,在三个数据集上取得了最新的最优性能。
Jan, 2022
本文提出了通过图像和语言模型进行少样本学习的视频语言学习器(VidIL),它在视频描述、视频问答、视频描述检索和视频未来事件预测等多种视频语言任务中表现出强大的性能,并且能够在使用上下文中的几个例子来生成目标输出,进而大大提高视频未来事件预测的准确率。
May, 2022
本文提出了一种名为 HiSE 的视觉语言对齐模型,通过明确的高层语义信息来提高跨模态表示,结合图形推理技术来促进全局和离散高级语义之间的交互,通过在 MSR-VTT、MSVD 和 DiDeMo 等三个基准数据集上的广泛实验表明,我们的方法在 VTR 上实现了优于现有方法的性能表现。
Aug, 2022
我们提出了一个新的任务和人类标注的数据集,用于评估视觉语言模型对于生成视频剪辑的标题和摘要的能力,该数据集包含了4800个YouTube视频剪辑,时长在20-60秒之间,涵盖了广泛的主题和兴趣,对于视觉和听觉内容都进行了基于摘要的检索任务和基于标题和摘要的生成任务的评估,并提出了一个基础模型作为Video-CSR任务的基准,旨在成为大型语言模型和复杂多模态任务时代的有用评估集。
Oct, 2023