使用增强边缘最大化神经网络进行讲座视频索引

ICMLDec, 2017

使用增强边缘最大化神经网络进行讲座视频索引

Lecture video indexing using boosted margin maximizing neural networks

Di Ma, Xi Zhang, Xu Ouyang, Gady Agam

TL;DR本篇论文提出一种使用深度卷积神经网络和增强学习框架进行讲座视频索引的新方法，该方法可以有效地处理遮挡、空间变换和其他类型的噪声。

Abstract

This paper presents a novel approach for lecture video indexing using a boosted deep convolutional neural network system. The indexing is performed by matching high quality slide images, for which text is either

lecture video indexing deep convolutional neural network boosting framework feature extraction similarity determination

发现论文，激发创造

使用卷积神经网络进行视频对象分割的像素级别匹配

本文提出了基于 CNN 的视频对象分割算法，采用像素级匹配来区分目标区域和背景。提出了特征压缩技术，对大数据集进行实验，证明了模型在准确性、速度和稳定性方面的有效性，同时也介绍了模型在不同领域的可传递性。

Aug, 2017

通过观看视频来学习图像匹配

本论文提出了一种基于无监督学习方法的计算机视觉问题图像匹配解决方案，通过训练卷积神经网络进行帧间插值并颠倒网络，提取相关性，能够应用于真实世界视频序列中自然包含的时间相关性，该方法的性能具有可比性。

Mar, 2016

基于匹配的视频对象分割：VideoMatch

该研究提出了一种基于匹配的视频目标分割算法，在不需要 fine-tuning 的情况下实现了实时性和较短的计算时间。

Sep, 2018

超越短片段：用于视频分类的深度网络

本论文提出和评估了几个深度神经网络架构，用于对比以往更长时间段内视频图像信息的组合。通过一些新的方法，包括卷积时间特征池化和循环神经网络结构，该论文指出最佳神经网络在 Sports 1 million 数据集（73.1％对 60.9％）和 UCF-101 数据集中（88.6％对 88.0％）及无附加光流信息（82.6％对 72.8％）上明显性能提高。

Mar, 2015

利用深度神经网络进行大规模 YouTube-8M 视频理解

本文基于 YouTube-8M 大规模数据集，提出了三种视频分类模型，分别基于帧池化和 LSTM 网络，第三个模型使用 Experts 混合中间层以增加模型容量，并进行了一系列处理不平衡训练数据的实验。

Jun, 2017

一个基于混合深度学习框架的视频分类多模态信息建模模型

本文研究如何利用多模态线索来改进视频分类。我们提出了一个混合的深度学习框架，它将静态空间外观信息、短时间内的运动模式、音频信息以及长时序动态性等多个模态的线索集成起来，以捕捉它们之间的关系，并通过多次实验表明，该框架可以提高视频分类的准确度。

Jun, 2017

珍惜所拥有的：利用深度神经网络中的相似性进行高效视频处理

本文提出了一种基于相似度的训练方法，利用视频帧中的数据冗余来实现高效处理，适用于实时视频处理应用。通过引入分层的正则化，提高了计算复用并增加了训练期间权重的相似性，该方法在车道检测和场景分割等关键实时应用中获得了较高的压缩比和加速比，同时保持了相同的准确性。

May, 2023

深度神经网络和双向动态时间扭曲算法的半监督三维视频信息检索

该论文提出了一种新颖的半监督深度学习算法，用于基于视觉内容检索相似的 2D 和 3D 视频。该算法采用深度卷积和递归神经网络与动态时间扭曲作为相似性度量，能够处理大规模视频数据集，并根据图形帧和内容检索与给定查询视频片段最相关的视频。该方法在包括 CC_WEB_VIDEO、Youtube-8m、S3DIS 和 Synthia 等多个公共数据集上进行了测试，与最先进的方法相比表现良好。该算法有效地解决了视频检索任务，并优于基准深度学习模型。

Sep, 2023

使用自然语言描述实现提取式视频剪辑定位

该文章提出了一种新的、能够利用文本和视频间的交互，预测起始和结束帧的提取方法，以避免检索和重新排序多个候选段落。使用递归网络将两种模态编码成共同表示，该方法在多项实验和去除分析中表现显著，比现有技术提升了性能。

Apr, 2019

使用 CLIP 的视频检索简明框架

本研究探索了使用语言 - 图像模型 CLIP 来获取视频表示，而不需要用户注释，这一技术扩展应用于视频检索中取得了最先进的结果。

Feb, 2021