网络图像的注意力转移用于视频识别

Aug, 2017

网络图像的注意力转移用于视频识别

Attention Transfer from Web Images for Video Recognition

Junnan Li, Yongkang Wong, Qi Zhao, Mohan Kankanhalli

TL;DR通过利用弱监督网络图像，提出了一种能够将图像转移到视频领域的深度学习分类器，使用 Siamese EnergyNet 网络结构来优化空间注意力图的能量函数，解决了基于网络图像训练的分类器到视频上显著下降的问题。

Abstract

Training deep learning based video classifiers for action recognition requires a large amount of labeled videos. The labeling process is labor-intensive and time-consuming. On the other hand, large amount of

deep learning action recognition weakly-labeled images domain shift siamese energynet

发现论文，激发创造

少做更多：利用网络行动图像训练 CNNs 进行动作识别

通过利用网络上的动作图像来训练 CNN 模型，可以在视频动作识别方面获得显著的性能提升。

Dec, 2015

通过从网络图像的域转移，在视频中对细粒度动作进行时间本地化

本研究采用弱监督和跨领域转移学习的方法，结合深度卷积神经网络和长短时记忆网络，实现从未剪辑的网络视频中，对于精细的动作定位识别，并使用大量的数据集如 FGA-240 和 THUMOS 2014，得到了令人信服的结果。

Apr, 2015

弱标注语义视频物体分割的半监督域适应

该论文提出了一种半监督方法来适应经过标记的图像数据训练的 CNN 图像识别模型到目标域，利用 CNN 学到的语义证据和视频数据的内在结构进行视频语义对象分割，显式地建模并补偿从源域到目标域的领域转移，并展示了我们的方法在具有挑战性的数据集上相对于现有方法的卓越性能。

Jun, 2016

群体参与：一种弱监督深度学习框架用于从 Web 数据中学习

本文介绍了一种鲁棒性强的、端到端的深度弱监督学习框架，该框架通过随机分组和注意力机制来有效减少 Web 图片注释的负面影响，实现了对嘈杂标签的有效抑制和准确图像标注，实验证明了该方法的卓越性能。

Nov, 2016

利用视频进行无监督学习的视觉表示

本文介绍了一种使用大量未标记数据进行无监督学习的方法，通过使用数十万个未标记的 web 视频作为数据集，设计了一个具有排名损失函数的 Siamese-Triplet 网络，用于深度卷积神经网络的无监督学习，可在不使用 ImageNet 的情况下，获得 52% 的 mAP 的性能，并展示了此非监督网络在其它任务中表现出竞争性。

May, 2015

视频动作识别的大规模弱监督预训练

使用大量网络视频进行预训练能够显著提高三个具有挑战性的公共行动识别数据集的性能，并对弱监督视频行动数据集的构建进行了深入研究。

May, 2019

深度图像到视频自适应融合网络用于动作识别

本文提出了 Deep Image-to-Video Adaptation and Fusion Networks (DIVAFN) 模型，通过跨媒介学习和特征融合，将图像的知识迁移到视频中，用来增强视频动作识别的性能。实验证明，该方法在四种真实数据集上表现出色，超越了一些领域适应和动作识别方法。

Nov, 2019

利用分层生成对抗网络进行视频识别中的图像利用

本论文提出了一种名为 HiGAN 的新方法，使用层次生成对抗网络将从图像等源域传递的知识用于视频识别目标域，以提高分类器的性能，实验证明其相比当前最先进的领域自适应方法更有效。

May, 2018

从嘈杂的网络视频中学习如何学习

本文提出了基于强化学习的标记策略，从嘈杂的网络搜索结果中选择正确的样本来训练分类器，以学习准确的视觉概念分类器。实验结果表明，我们的方法能够学习嘈杂数据的良好标记策略，并用此学习精确的视觉概念分类器。

Jun, 2017

从行为到事件：利用改进的深度置信网络的迁移学习方法

本文提出了一种基于 Spectral Deep Belief Network 的能量模型来解决视频分析中深度学习和数据量大的问题，该模型可以同时处理所有帧，将空间和时间信息传递到学习过程中，实验结果表明该模型具有较高的效率和降低的计算负担。

Nov, 2022