本文提出了基于 CNN 的视频对象分割算法,采用像素级匹配来区分目标区域和背景。提出了特征压缩技术,对大数据集进行实验,证明了模型在准确性、速度和稳定性方面的有效性,同时也介绍了模型在不同领域的可传递性。
Aug, 2017
本论文提出了一种基于无监督学习方法的计算机视觉问题图像匹配解决方案,通过训练卷积神经网络进行帧间插值并颠倒网络,提取相关性,能够应用于真实世界视频序列中自然包含的时间相关性,该方法的性能具有可比性。
Mar, 2016
该研究提出了一种基于匹配的视频目标分割算法,在不需要 fine-tuning 的情况下实现了实时性和较短的计算时间。
Sep, 2018
本论文提出和评估了几个深度神经网络架构,用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法,包括卷积时间特征池化和循环神经网络结构,该论文指出最佳神经网络在 Sports 1 million 数据集(73.1%对 60.9%)和 UCF-101 数据集中(88.6%对 88.0%)及无附加光流信息(82.6%对 72.8%)上明显性能提高。
Mar, 2015
本文基于 YouTube-8M 大规模数据集,提出了三种视频分类模型,分别基于帧池化和 LSTM 网络,第三个模型使用 Experts 混合中间层以增加模型容量,并进行了一系列处理不平衡训练数据的实验。
Jun, 2017
本文研究如何利用多模态线索来改进视频分类。我们提出了一个混合的深度学习框架,它将静态空间外观信息、短时间内的运动模式、音频信息以及长时序动态性等多个模态的线索集成起来,以捕捉它们之间的关系,并通过多次实验表明,该框架可以提高视频分类的准确度。
本文提出了一种基于相似度的训练方法,利用视频帧中的数据冗余来实现高效处理,适用于实时视频处理应用。通过引入分层的正则化,提高了计算复用并增加了训练期间权重的相似性,该方法在车道检测和场景分割等关键实时应用中获得了较高的压缩比和加速比,同时保持了相同的准确性。
May, 2023
该论文提出了一种新颖的半监督深度学习算法,用于基于视觉内容检索相似的 2D 和 3D 视频。该算法采用深度卷积和递归神经网络与动态时间扭曲作为相似性度量,能够处理大规模视频数据集,并根据图形帧和内容检索与给定查询视频片段最相关的视频。该方法在包括 CC_WEB_VIDEO、Youtube-8m、S3DIS 和 Synthia 等多个公共数据集上进行了测试,与最先进的方法相比表现良好。该算法有效地解决了视频检索任务,并优于基准深度学习模型。
Sep, 2023
该文章提出了一种新的、能够利用文本和视频间的交互,预测起始和结束帧的提取方法,以避免检索和重新排序多个候选段落。使用递归网络将两种模态编码成共同表示,该方法在多项实验和去除分析中表现显著,比现有技术提升了性能。
Apr, 2019
本研究探索了使用语言 - 图像模型 CLIP 来获取视频表示,而不需要用户注释,这一技术扩展应用于视频检索中取得了最先进的结果。
Feb, 2021