网络图像的注意力转移用于视频识别
本研究采用弱监督和跨领域转移学习的方法,结合深度卷积神经网络和长短时记忆网络,实现从未剪辑的网络视频中,对于精细的动作定位识别,并使用大量的数据集如 FGA-240 和 THUMOS 2014,得到了令人信服的结果。
Apr, 2015
该论文提出了一种半监督方法来适应经过标记的图像数据训练的 CNN 图像识别模型到目标域,利用 CNN 学到的语义证据和视频数据的内在结构进行视频语义对象分割,显式地建模并补偿从源域到目标域的领域转移,并展示了我们的方法在具有挑战性的数据集上相对于现有方法的卓越性能。
Jun, 2016
本文介绍了一种鲁棒性强的、端到端的深度弱监督学习框架,该框架通过随机分组和注意力机制来有效减少 Web 图片注释的负面影响,实现了对嘈杂标签的有效抑制和准确图像标注,实验证明了该方法的卓越性能。
Nov, 2016
本文介绍了一种使用大量未标记数据进行无监督学习的方法,通过使用数十万个未标记的 web 视频作为数据集,设计了一个具有排名损失函数的 Siamese-Triplet 网络,用于深度卷积神经网络的无监督学习,可在不使用 ImageNet 的情况下,获得 52% 的 mAP 的性能,并展示了此非监督网络在其它任务中表现出竞争性。
May, 2015
本文提出了 Deep Image-to-Video Adaptation and Fusion Networks (DIVAFN) 模型,通过跨媒介学习和特征融合,将图像的知识迁移到视频中,用来增强视频动作识别的性能。实验证明,该方法在四种真实数据集上表现出色,超越了一些领域适应和动作识别方法。
Nov, 2019
本论文提出了一种名为 HiGAN 的新方法,使用层次生成对抗网络将从图像等源域传递的知识用于视频识别目标域,以提高分类器的性能,实验证明其相比当前最先进的领域自适应方法更有效。
May, 2018
本文提出了基于强化学习的标记策略,从嘈杂的网络搜索结果中选择正确的样本来训练分类器,以学习准确的视觉概念分类器。实验结果表明,我们的方法能够学习嘈杂数据的良好标记策略,并用此学习精确的视觉概念分类器。
Jun, 2017
本文提出了一种基于 Spectral Deep Belief Network 的能量模型来解决视频分析中深度学习和数据量大的问题,该模型可以同时处理所有帧,将空间和时间信息传递到学习过程中,实验结果表明该模型具有较高的效率和降低的计算负担。
Nov, 2022