- CVPR使用文本数据的强化学习快进视频
本文提出一种基于强化学习的方法来加速教学视频,该方法可以自适应地选择不相关的帧以缩小输入视频,同时使用 Visually-guided Document Attention Network(VDAN)产生高度判别的嵌入空间来表示文本和视觉数 - AAAI卷积分层注意网络用于查询焦点视频摘要
本文提出了一种基于查询的视频摘要生成方法,通过计算视频镜头与查询之间的相似度,采用包含两个部分的 Convolutional Hierarchical Attention Network 实现了对视觉信息的编码和查询相关性的计算,得到了查询 - MM层次强化学习实现弱监督视频摘要
提出了一种基于弱监督分层强化学习框架的视频摘要算法,该算法将任务分解为多个子任务,通过训练管理器网络为每个子任务设置子目标,在此基础上使用策略梯度预测视频帧的重要性得分,通过定义的子奖励和全局奖励来解决稀疏问题,并在两个基准数据集上实验证明 - ILS-SUMM:迭代局部搜索用于非监督视频摘要
本研究提出了一种基于 ILS-SUMM 元启发式优化框架的视频摘要算法,通过优化距离最小化和背包约束技术,在各种长度的视频中实现子集摘要集合的选择,实验结果表明和之前的方法相比,ILS-SUMM 在总距离方面取得了显著更好的结果。
- ICCV综合视频理解:基于内容的视频推荐器设计的视频摘要
该论文将视频摘要提出了内容为基础的推荐问题,使用可扩展的深度神经网络在显式建模的片段和视频上进行预测,通过场景和动作识别来寻找视频理解任务不同方面之间的相关性,同时讨论音频和视觉特征在总结任务中的影响,并通过数据增强和多任务学习来防止模型过 - 面向任务的视频摘要元学习
本文提出了一种元学习方法 MetaL-TDVS,该方法针对任务驱动的视频摘要任务进行显式探索,以发掘不同视频摘要过程之间的视频摘要机制,从而提高训练模型的泛化能力。 MetaL-TDVS 将每个视频的摘要作为一个单一任务,并通过两种方式的反 - 层次化递归神经网络用于视频摘要
本篇论文提出了一种名为 H-RNN 的分层循环神经网络用于视频摘要,其可以更好地利用帧之间的长时间依赖性,并且在 Combined 和 VTW 两个数据集上表现优于现有技术。
- 编辑视频和原始视频摘要的一般框架
本文提出了一个通用的视频摘要框架,可以适用于编辑视频和原始视频的摘要。具体来说,本研究设计了四个模型,用于捕捉视频摘要的特性,包括:重要性、代表性、多样性和故事性。这些模型的权重是以监督学习方式学习的,并且分别用于编辑视频和原始视频。通过测 - CVPR重新思考视频摘要的评估
本文主要研究视频摘要中的评估方法,并提出了基于视频分割的替代方法,在使用两个知名的基准数据集进行研究时,惊奇地发现随机生成的视频摘要达到了与人类生成的摘要相当甚至更好的性能表现,并且视频分割对性能指标的影响最大。
- 基于注意力机制的视频摘要
提出了一种新的监督学习方法,基于关键帧技术和自注意力机制来实现视频摘要。该方法在两个公认的基准数据集 TvSum 和 SumMe 上取得了新的最佳结果。
- CVPRSUSiNet: 看见、理解和总结
该研究提出了一种多任务时空网络 ——SUSiNet,可以共同解决显著性估计、动作识别和视频摘要的时空问题。该方法使用一个联合端到端训练的单个网络,使用与探索任务相关的多个数据集。该网络使用统一的体系结构,包括全局和任务特定层,并通过使用相同 - AAAI无监督视频摘要的判别式特征学习
本文提出了一种解决自动从输入视频中提取关键镜头的无监督视频摘要问题的方法,并针对我们的经验观察处理了两个关键问题:由于每帧的输出重要性得分是平坦分布的而导致的无效特征学习和处理长视频输入时的训练困难问题。为了缓解第一个问题,我们提出了一个称 - 改进用于监督视频摘要的序列行列式点过程
本文讲述了一种基于顺序行列式点过程(SeqDPP)的有监督视频摘要方法,该方法通过概率分布建模多样性。我们提出了一种大边际算法,以解决 SeqDPP 中的曝光偏差问题。同时,我们还设计了一种新的概率分布,当它被集成到 SeqDPP 中时,产 - 基于查询条件的三人对抗网络在视频摘要中的应用
本文提出了一种查询驱动的三方生成对抗网络,通过学习用户查询和视频内容的联合表示,并引入三方损失函数,即鼓励生成器学习更好的摘要结果,避免生成随机无意义摘要。实验结果表明,该方法在一些查询驱动的视频摘要基准数据集上表现出了高效性和可行性。
- 局部多样性有多局部?使用动态基准集强化顺序确定性点过程进行监督式视频摘要
本文提出了一种基于强化学习的概率模型,用于动态控制视频片段上的局部多样性的时间跨度,从而实现视频摘要。实验表明,与 MLE 方法相比,我们的模型和新的学习算法具有更大的优势。
- CVPR通过学习未配对数据的视频摘要
本文探讨了视频摘要的问题,并提出了一种从未配对数据中学习视视频摘要的方法,该方法使用对抗性目标并对生成的视视频摘要施加多样性限制,实验结果表明该方法显着优于其他替代方法。
- ECCV使用全卷积序列网络进行视频摘要
这篇论文探讨了视频摘要的问题,并将其作为一个序列标注问题。优化地选择输入视频的一部分帧以创建一个摘要视频,以最优地捕捉输入视频的重要信息,这提供了一个有用的工具来协助视频检索、浏览等。作者提出使用全卷积序列模型解决视频摘要问题,并通过对普通 - CVPR基于记忆网络的基于故事的 360° 视频时间摘要方法
我们提出一种名为过去 - 未来记忆网络模型(PFMN)的方法来解决 360 度视频的基于故事的时间摘要问题。我们通过计算来自输入视频的 81 个普通视场(NFOV)区域建议的分数,并利用两个外部记忆存储先前选择的子镜头和未来候选子镜头的嵌入 - CVPRFFNet:基于强化学习的视频快进
本文介绍了利用视频摘要和强化学习的灵感,针对计算、通信、存储和能源资源有限的应用,提出了一个在线框架 FastForwardNet(FFNet),该框架可以自动快进视频并实时将代表性帧的子集呈现给用户,大大提高了处理效率和视频表示准确度。
- 扩张时序关系对抗网络用于通用视频摘要
通过新的 DTR-GAN 框架,结合了时序动态关系、多尺度全局上下文信息和对抗学习等技术,实现视频的帧级别摘要,且在三个公共数据集上验证了其在视频理解上的有效性。