VideoBERT: 视频与语言表征学习的联合模型
本文介绍了 ActBERT 模型及其应用,它采用自监督学习方法从无标签的数据中提取语音和视频的联合表示,并在多项视频和语言任务中表现出卓越的性能。
Nov, 2020
提出了一种自我训练的方法,用于从未标注的图像数据中训练 VL-BERT 模型,模型采用统一的有条件模型,能够执行零样本条件生成,通过该方法使用仅 300k 个未标注的额外数据,可以获得与训练了 300 万个图像数据的相似模型大小的模型相媲美或甚至更好的性能
Jan, 2022
本文研究了三种不同的联合语言 - 视觉神经网络模型,使用 LSMDC16 电影数据集评估模型在自然语言图像 / 视频注释和检索任务中的性能,并在标准排名和多项选择测试中取得优异的结果。
Sep, 2016
本文提出了一种自监督学习方法,用于视频特征,与现有方法相比在下游任务中表现显著提高,通过将文本序列的 BERT 模型扩展到实值特征向量序列的情况,以噪声对比估计取代 softma 损失函数,同时展示了如何从可视特征序列和 ASR 派生的词序列中学习表示,并且表明这样的跨模态训练可以进一步提高性能。
Jun, 2019
该研究论文提出了一种统一的大规模视觉语言模型(LVLM),通过在语言特征空间中统一视觉表示,学习多模态交互,从而在图像和视频基准任务上取得了卓越性能。
Nov, 2023
本文介绍了在大规模多模式视频数据集上的自我监督学习的发展;提出了一种基于生成模型的方法,以翻译问题的形式解决了这一问题,并将其应用于多种下游视频理解任务中。结果表明,本方法在性能上优于基于对比度度量学习的方法。
Jun, 2020
本文提出了一种用于无监督特征学习的视频数据的强基线模型,通过学习预测输入视频序列中缺少的帧或外推未来帧,该模型发现了对于表示复杂变形和运动模式有用的空间和时间相关性,并且是借鉴语言建模文献,通过将图像补丁的空间量化为一个大字典,适应了视觉领域。我们在填充和生成任务上演示了该方法。第一次,我们展示了在自然视频上训练后,这样一个模型可以预测短视频序列中的非平凡运动。
Dec, 2014
本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型,并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练,通过几个随机向量连续提示向量进行优化,将视频相关任务转化为与预训练目标相同的格式。对于行动识别,动作定位和文本 - 视频检索的 10 个公共基准测试,尽管优化参数显著减少,但在封闭集,少量样本和零样本情况下,我们实现了与现有方法相当或最新的性能,实验上进行了广泛的消融研究以分析关键组件以与静态图像和视频之间的差距。
Dec, 2021
通过自动增强语言 - 视频数据集和多方位视频字幕生成方法,提高语言 - 视频表示能力,并通过多模态检索模型验证其有效性。
Jun, 2024