扩张时序关系对抗网络用于通用视频摘要
本文提出了一种查询驱动的三方生成对抗网络,通过学习用户查询和视频内容的联合表示,并引入三方损失函数,即鼓励生成器学习更好的摘要结果,避免生成随机无意义摘要。实验结果表明,该方法在一些查询驱动的视频摘要基准数据集上表现出了高效性和可行性。
Jul, 2018
本文通过引入自注意力机制和 Transformer 在视频总结中建模时间关系,以无监督的方法通过对抗性学习生成代表性摘要,并提出 SUM-GAN-AED 模型,评估结果表明,使用自我注意力机制作为帧选择机制在 SumMe 上优于现有技术,并在 TVSum 和 COGNIMUSE 上具有接近现有技术的性能。
Jul, 2023
本文介绍了一种基于卷积变换器、双鉴别器生成对抗网络(CT-D2GAN)的非监督式视频异常检测方法,该方法在未来帧预测和对视频的局部和全局建模方面取得了显著的效果。
Jul, 2021
本篇论文提出了一种有效的 GCN 模块 DTGRM,用于捕获和建模视频帧之间的各个时间跨度的时间关系,并通过提出的自监督任务来增强模型的时间推理能力,这种模块在行为分割方面表现优于现有技术。
Dec, 2020
该论文介绍了一种利用生成对抗网络的思想进行自动视频摘要的新的无监督方法,消除了鉴别器,使用简单的损失函数,并将模型的不同部分训练分离。采用迭代式训练策略,交替训练重构器和帧选择器多次迭代。此外,该方法在训练和评估期间添加了一个可训练的掩码向量到模型中进行摘要生成。在两个公共数据集 (SumMe 和 TVSum) 和四个我们创建的数据集 (Soccer、LoL、MLB 和 ShortMLB) 上的实验证明了每个组件在模型性能上的有效性,特别是迭代式训练策略。与最先进的方法进行的评估和比较突出了该方法在性能、稳定性和训练效率上的优势。
Nov, 2023
该研究提出了一种基于强化学习和深度摘要网络的视频摘要算法,该算法的奖励函数同时考虑了视频摘要的多样性和代表性,并在两个基准数据集上展示了优异的性能。
Dec, 2017
本文提出了一种生成式模型 Temporal Generative Adversarial Nets(TGAN),用于学习未标记视频的语义表示,并能够生成视频。我们的模型利用两种不同类型的生成器:时间生成器和图像生成器,解决了利用现有的基于 GAN 的方法生成视频时存在的问题。为了稳定训练,我们采用了最近提出的 Wasserstein GAN 模型,并提出了一种稳定的端到端训练方法。实验结果表明了我们方法的有效性。
Nov, 2016
本文提出了一种针对抽象文本摘要的对抗性过程,在其中同时训练了生成模型和判别模型,并使用增强学习构建了生成器,该生成器可以将原始文本作为输入并预测抽象摘要。我们还构建了一个判别器来区分生成的摘要和真实值。经过广泛的实验证明,我们的模型在 CNN / Daily Mail 数据集上达到了具有竞争力的 ROUGE 分数。从质量上看,我们证明了我们的模型能够生成更多抽象、易读和多样化的摘要。
Nov, 2017
我们提出了一种新颖的无条件视频生成模型,旨在解决长期的空间和时间依赖关系。通过使用混合的显式隐式三平面表示法和单一潜变量模型整个视频序列,我们的方法捕捉这些依赖关系。通过从主要潜变量推导出的中间三平面表示,合成单个视频帧。这种新颖策略通过 FLOPs 测量将计算复杂性降低了 2 倍。因此,我们的方法方便了高效的时间连贯视频生成。此外,与自回归方法相比,我们的联合帧建模方法减少了视觉伪影的生成。通过在基于生成对抗网络(GAN)的生成器架构中集成基于光流的模块,我们进一步增强了模型的能力,从而弥补了较小生成器大小所施加的约束。因此,我们的模型能够以 256x256 像素分辨率合成超过 5 秒 30 帧的高保真视频片段。通过定性和定量评估,我们在包含合成和真实视频片段的三个不同数据集上对我们方法的有效性和多功能性进行了验证。
Jan, 2024
本文介绍了一种叫做 VideoDG 的框架,提供了两个技术贡献:一种新颖的深度架构 (Adversarial Pyramid Network) 和一个新的强健性方法 (adversarial data augmentation),能够通过掌握不同时间尺度的局部关系特征和全局关系特征来解决视频领域通用性问题,并通过提高增强数据的多样性和质量来实现数据域之间的桥梁。在三个视频域通用基准测试上,VideoDG 框架一直表现出比以前的视频分类模型和现有的域通用方法更好的性能。
Dec, 2019