MarioNette: 自监督精灵学习
本文提出了一种利用自由可得的多模态内容进行无人监督计算机视觉算法训练的方法,通过挖掘大规模的多模态文档语料库中的语义结构进行话题建模,训练卷积神经网络来预测图像最可能出现为插图的语义上下文,有效地学习了区分性视觉特征,其实验结果表明具有比近期的自监督或自然监督方法更好的图像分类、物体检测和多模态检索的性能。
May, 2017
本篇综述论文讨论了自监督学习在视频领域的应用,主要归纳了四种不同的自监督学习方法,分别为预测任务、生成式学习、对比学习和跨模态协议,并讨论了现有方法的局限性和未来发展方向。
Jun, 2022
提出了一种名为 VITO 的简单范式,通过对动态视频帧的自我监督学习,有效地学习图像表示,该方法实现了视频预训练模型在语义分割和对象检测等任务上与 ImageNet 预训练模型性能相近甚至更好的表现,未来视频预训练有望成为学习图像表示的新默认方法。
Oct, 2022
利用无标签游戏过程和领域特定增强方法生成预训练或多任务设置中使用的自我监督目标数据集,以解决传统测试方法在检测视频游戏中潜在错误方面的困难。通过弱监督方法扩大数据集规模,并结合无监督聚类和基于文本和几何提示的交互方法,有效提高了对大型视觉错误的检测能力。
Sep, 2023
本文提出了一种另类的方法,通过使用预训练的图像模型作为 “老师” 来训练视频模型,从而实现对视频表示的无监督学习。相比于现有的技术,该方法在 input modalities 的不同数据源下具有更强的迁移性能,并在彻底未被筛选的原始视频数据来源下进行训练。
Jan, 2019
通过在训练过程中直接强制将强大的三维结构先验性知识融入模型,我们提出了一种新的方法来加强现有的自监督学习方法,并通过一系列数据集实验证明了我们的三维感知表示比传统的自监督基线更加稳健。
Jun, 2024
本文介绍了一种基于无监督学习的方法,探讨反向问题 —— 如何从图像集合中发现代表每个图像的生成概念,进一步利用这些生成概念生成新的艺术和混合图像,并将其用作下游分类任务的一种表示。
Jun, 2023
本文介绍了一种基于深度神经网络的视频摘要方法,该方法使用了多模态自监督学习框架,该框架可以在不需要大规模标注数据的情况下,通过视频与文本之间的语义一致性来获取视频的语义表示,并提出了一种渐进式摘要方法。实验表明,该方法的排名相关系数和 F 分数均优于现有视频摘要方法。
Jan, 2022
该研究探索了一个新的问题,即学习对不同长度和数量的图像文本具有强鲁棒性的自我监督视觉语言表示法,其介绍了一个包括超过 31M 篇文章,22M 张图片和 1M 个视频的大规模多模态数据集,并表明最先进的图像文本对齐方法不能很好地处理带有多张图像和更长篇幅的叙述,且还提出了一种直观的基线方法,在 GoodNews 数据集上零样本图像集检索表现比这些方法高出 10%。
Jul, 2022
本文提出了一种从原始视觉分组能力启动视觉表示学习的框架,操作化分组通过轮廓检测器,该检测器将图像分割成区域,并将这些区域合并成树形层次结构。实验表明,我们的方法朝着通用预训练方法的方向发展,其对下游任务有益,并可用于语义区域搜索和基于视频的对象实例跟踪。
Dec, 2020