视频分类和关键帧识别的半监督和深度学习框架
本文提出了一种基于深度自动编码器模型和注意力层的关键帧检测方法,该方法首先使用自动编码器的编码器部分从视频帧中提取特征,并使用 K-means 聚类算法对这些特征和相似帧进行分割,然后从每个簇中选择与簇中心最接近的帧作为关键帧,该方法在 TVSUM 视频数据集上达到了 0.77 的分类准确率,对于视频分析领域中的关键帧提取具有良好的应用前景。
Jun, 2023
本文提出了一种新的主动学习框架,通过选择一批典型样本和一组信息帧进行视频分类,以减轻人工注释员的负担。通过不确定性和多样性来确定信息化的视频,并利用代表性采样技术从每个视频中提取一组样本帧。
Jul, 2023
本文提出了一种基于 CNN 和 TSDPC 的无监督关键帧检索方法,能够自动计算关键帧数量并保留视频时间信息,此外,还加入了 LSTM 网络和权重融合策略来提升分类性能和效率,并在两个常用数据集上进行了评估,结果表明与现有方法相比,该方法具有更好的性能和效率。
Nov, 2022
本论文提出了一种基于半监督学习的视频显著性目标检测方法,使用伪标签从稀疏注释帧中生成像素级伪标签,并结合部分手动注释,学习了空间和时间线索,进而产生准确的显著性图。实验结果表明,我们的方法在 VOS、DAVIS 和 FBMS 三个公共基准测试数据集上均明显优于所有最先进的全监督方法。
Aug, 2019
使用半监督模型和自编码框架,学习嵌入新闻文章中事件和相关人物的本地信息,并利用这个信号进行框架分类。实验结果显示,该模型表现优于以前的框架预测模型,并可以通过使用半监督模型的未标记训练数据进一步提高性能,并且所学的事件和角色嵌入直观上与文档级预测相符,提供一种细致和可解释的文章框架表示。
Apr, 2021
提出了一种基于磁盘聚类的统一框架,它可以处理和结合不同类型的较低需求的弱监督,从视频中监测时空活动,并将其应用于训练设置中的不同类型的监督信号实验结果证明:该模型在 UC101-24 和 DALY 数据集上具有竞争性能,而且与之前的方法相比,使用的监督信号更少。
Jun, 2018
本文提出一种以单个图像和动作类别为条件的深度视频预测模型,通过检测物体关键点并将关键点序列预测为未来运动,然后通过平移输入图像来生成未来帧。该方法通过无监督方式训练来检测任意对象的关键点,并使用原始视频的检测关键点作为伪标签学习物体运动,实验结果表明,我们的方法可以应用于各种数据集,而不需要对视频中的关键点进行标注,检测到的关键点类似于人工标注的标签,并且与以前的方法相比,预测结果更加真实。
Oct, 2019
本文介绍了一种自动视频标注的方法,该方法可以增加用户提供的标签数量,并将其临时本地化,将标签与关键帧关联起来。我们的方法利用用户生成的标签和 web 来源中的集体知识,以及上传到社交网站和 web 来源的关键帧和图片的视觉相似性。与需要为每个标签训练分类器的现有视频标记方法相比,我们的系统具有较少的参数,易于实现,并且可以处理开放词汇的场景。我们在 DUT-WEBV 上展示了该方法,该数据集是一个大型的网络视频数据集,结果显示出最先进的结果。
Jul, 2014
本文提出了一种混合式深度学习框架,旨在对视频的静态空间信息、短期运动以及长期时间线索进行建模,并且在 UCF-101 人体动作和 Columbia 消费者视频两个标注数据集上实验,结果表明该框架相对于传统策略具有更高的性能.
Apr, 2015