本文介绍了一种面向电影理解的自监督视频学习方法,采用分层的预训练策略,在低层进行对比学习,高层则采用事件遮罩预测任务来预训练视频上下文模型,并在 VidSitu 基准测试中表现出更好的性能。同时,在 LVU 任务中,我们还展示了上下文化事件特征的有效性。
Apr, 2022
本文提出了一种新型的无监督视觉基础框架,使用概念学习作为代理任务来获得自我监督,以鼓励模型定位和解释语义属性,在多项实验中,该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%,在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。
Mar, 2018
提出了一个结合自监督学习和监督学习的多任务预训练框架,用于识别多种视觉任务,结果表明该模型能够达到或超过多个视觉任务的最先进结果的能力。
Oct, 2023
提出了一种名为 VITO 的简单范式,通过对动态视频帧的自我监督学习,有效地学习图像表示,该方法实现了视频预训练模型在语义分割和对象检测等任务上与 ImageNet 预训练模型性能相近甚至更好的表现,未来视频预训练有望成为学习图像表示的新默认方法。
Oct, 2022
我们介绍了训练在监督图像字幕语料库上的多种模型,用于预测给定字幕的图像特征,以执行句子表示接地。我们训练了一个接地的句子编码器,在 Coco 字幕和图像检索方面取得了良好的性能,随后展示了该编码器可以成功地转移到各种 NLP 任务,与仅文本模型相比,性能有所提高。最后,我们分析了接地的贡献,表明该系统学习到的单词嵌入优于非接地的单词嵌入。
Jul, 2017
本文介绍了一种新的多项选择视频问题回答(Video QA)的训练方案,其中包括自监督预训练阶段和监督对比学习的辅助学习。在自监督预训练阶段中,我们将原始问题格式进行了转化,以预测相关问题并提供模型更广泛的背景输入。然后,我们在对比学习的主阶段中添加了屏蔽噪声,并通过将正样本映射到受掩输入来改进模型表现。最后,我们采用了本地对齐注意力来更有效地关注相关字幕句子的视频帧。我们的实验结果表明,我们的模型在相关测试集上均取得了最先进的性能,并通过进一步的分析验证了我们的方法。
Sep, 2020
提出了一种基于弱监督学习的电影描述模型,通过学习角色的可视外观和描述之间的关系来实现角色地位的划分,该模型不仅提高了生成描述的质量,还实现了角色定位,局部共指分辨率,并在 MPII 电影描述数据集上进行了评价。
Apr, 2017
本文研究了使用小规模可视关系数据的预训练方法,包括使用场景图将可视关系三元组转换为结构化说明,以及使用掩模关系预测进一步鼓励从可视上下文中关联实体,并且证明了这些方法从弱监督关系数据中学习多模态表示的有效性。
May, 2023
本文提出了一种基于视觉词汇的自监督学习方法,通过将图像特征映射量化为视觉词汇,实现了对图像的分离表示,通过 Bag-of-Words 表示学习有用的下游图像理解特征,与类似自然语言领域的方法相比,该方法在目标检测和分类上表现出更好的迁移能力。
Feb, 2020
通过无监督预训练实现视觉和语言模型的学习,使用 “mask-and-predict” 方法预训练文本和图像数据,并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁,在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能,挑战了对于 V&L 预训练来说,对齐数据是必要的广泛看法,并显著减少了 V&L 模型的监督所需量。
Oct, 2020