针对无标签视频表示学习的演化损失
本文提出了一种新的方法来从大规模的无标签视频数据中学习视频表示,采用无监督表示学习作为多模式、多任务学习问题,利用进化搜索算法来自动找到捕获许多(自我监督)任务和模态的优化损失函数的组合,并提出了一种基于 Zipf 定律的无监督表示验证度量,该度量不受任何标签的指导,可产生类似于弱监督、特定任务的结果,该方法得到了单一 RGB 网络的无监督表示学习,并且胜过了之前的方法。
Feb, 2020
本文提出了一种另类的方法,通过使用预训练的图像模型作为 “老师” 来训练视频模型,从而实现对视频表示的无监督学习。相比于现有的技术,该方法在 input modalities 的不同数据源下具有更强的迁移性能,并在彻底未被筛选的原始视频数据来源下进行训练。
Jan, 2019
该篇论文提出了一种从未加工过的视频中学习图像表示的方法,该方法将来自现成物体检测器的监督损失和自我监督损失相结合,取得了在 19 个迁移学习任务中有竞争力的结果,其中包括 18/19 的少样本学习任务和 8/8 的数据集泛化任务。
Oct, 2020
本研究介绍了一种从未标记的视频中进行无监督学习的新方法,通过引入一种面向物体的时间相干性方法来促进学习具有相似表征的物体,并在多个基准数据集上展示了与竞争无监督方法相比显著的准确度提高。
Dec, 2016
本文提出了一个自监督训练框架,通过在训练管道中增加多模态聚类步骤以捕捉跨模态的语义相似性,进而学习一个共同的多模态嵌入空间,并证明其能在文本到视频检索和时间动作定位等两个具有挑战性的领域展示出四个不同数据集上的最新成果.
Apr, 2021
本文提出了一种基于多模态学习的新型框架,可以从非同步的音频和视觉事件中学习,用于事件分类和定位。使用该方法可以取得弱标签音频事件视频大规模数据集的最先进结果。
Apr, 2018
本文介绍了一种使用大量未标记数据进行无监督学习的方法,通过使用数十万个未标记的 web 视频作为数据集,设计了一个具有排名损失函数的 Siamese-Triplet 网络,用于深度卷积神经网络的无监督学习,可在不使用 ImageNet 的情况下,获得 52% 的 mAP 的性能,并展示了此非监督网络在其它任务中表现出竞争性。
May, 2015
提出一种无监督学习框架,利用未标记的数据来学习视频表示,通过学习推断不同视图的三维运动,捕捉视角不变的动作特征,以及增强视角不变特征的学习方法,并在多个数据集上证明该方法对动作识别的有效性。
Sep, 2018