- ICCV通过表示扭曲的方法实现语义视频卷积神经网络
本文提出了一种将用于静态图像的 CNN 模型转换为用于视频数据的 CNN 模型的技术,利用名为 NetWarp 的模块,通过邻帧的光流在时间上进行网络表示的扭曲,同时将光流方法与不同的 CNN 架构结合以实现改进,最终在 CamVid 和 - ICCV视频中人群计数的时空建模
通过引入卷积 LSTM 模型,结合了空间和时间依赖关系,并利用双向卷积 LSTM 模型实现了进一步的长距离信息访问,从而有效地提高了人群计数的准确性。同时,我们的模型在少量数据的情况下具有很好的迁移能力。
- CVPR弱监督下无序动作分割的动作集
该研究论文介绍了一种弱监督的行为检测和时间分割方法,利用被动数据采集到的行为集合训练模型,以实现自动的视频行为分割和标注。
- CBinfer: 基于变化进行的卷积神经网络视频推断
本论文提出一种新的算法,利用像素变化的时空稀疏性,对静态摄像机录制的视频数据进行卷积神经网络的基于变化的评估,从而实现本地视频数据的处理,其速度比 cuDNN 基准测试平均快 8.6 倍,精度损失不到 0.1%,不需要对网络进行重新训练,而 - 基于分层变分自编码器的视频时空解耦
本文提出了一种基于概率的方法,通过无监督视频数据学习可分离目标身份和姿态信息的表示。该方法利用具有因子化先验分布的深度生成模型来编码隐藏特征集中的时间不变性属性,并通过变化推理实现学习。实验结果表明,该模型成功分解其表示,并在转移学习任务中 - 视频分类与字幕的深度学习
本文主要关注于评估使用深度学习来理解视频中的内容的两个方向,即视频分类和视频字幕生成,并对常用基准和竞赛进行了回顾。
- ECCV查询导向的抽取式视频摘要
本文介绍了一种基于概率模型的自动视频摘要算法,可以根据用户查询关键词和视频内容的重要性综合考虑来选择关键镜头并生成视频摘要,适用于搜索引擎等应用。
- 弱标注语义视频物体分割的半监督域适应
该论文提出了一种半监督方法来适应经过标记的图像数据训练的 CNN 图像识别模型到目标域,利用 CNN 学到的语义证据和视频数据的内在结构进行视频语义对象分割,显式地建模并补偿从源域到目标域的领域转移,并展示了我们的方法在具有挑战性的数据集上 - 深度神经网络对视频数据情绪识别的改进
本文通过使用卷积神经网络和循环神经网络来识别视频数据中的情感,分析两种神经网络对系统性能的贡献,并在实验中实现了优于基线和其他竞争方法的表现。
- 使用贝叶斯非参数场景建模在非结构化环境中进行异常检测
本文探索在视频数据异常检测中使用贝叶斯非参数主题建模技术,并在两个实验中展示了该技术的应用,第一个实验表明该技术能够自动描述底层地形并检测异常,第二个实验在动态不稳定的环境下检测到多种现象。
- 姿态嵌入:学习匹配人体姿态的深度架构
本文提出了一种用于学习将身体相似姿势的图像放置在附近的 embedding 方法,该方法可以作为一种直接比较基于人体姿势的图像的方法,避免了估计身体关节位置的潜在挑战。通过三元组距离准则构建了姿态嵌入学习,采用深度架构,使能够学习区分不同姿 - 无监督的时间数据特征学习
该研究旨在探讨基于无监督学习的视频数据特征学习,利用自编码器技术和慢特征学习,提出一种更为时空连贯、语义更为相似的度量标准。
- 视频(语言)建模:自然视频生成模型的基线
本文提出了一种用于无监督特征学习的视频数据的强基线模型,通过学习预测输入视频序列中缺少的帧或外推未来帧,该模型发现了对于表示复杂变形和运动模式有用的空间和时间相关性,并且是借鉴语言建模文献,通过将图像补丁的空间量化为一个大字典,适应了视觉领 - ICCV无监督学习时空一致度量
本文研究在没有监督训练下在时间上连续的视频数据中进行无监督特征学习的方法,主要包含自编码器、时间和稀疏性正则化、缓慢特征学习和度量学习,最终得到一个更具有时间和语义一致性的度量方法。
- 视频基因组
通过将视频信息表达成视频 DNA 序列,运用生物信息学算法实现视频在大规模数据库中的搜索、匹配和比较。