从字幕生成视频:创造您所说的话
本文提出了一种生成式模型 Temporal Generative Adversarial Nets(TGAN),用于学习未标记视频的语义表示,并能够生成视频。我们的模型利用两种不同类型的生成器:时间生成器和图像生成器,解决了利用现有的基于 GAN 的方法生成视频时存在的问题。为了稳定训练,我们采用了最近提出的 Wasserstein GAN 模型,并提出了一种稳定的端到端训练方法。实验结果表明了我们方法的有效性。
Nov, 2016
该研究旨在通过使用基于条件生成对抗网络(CGAN)的新框架来提高图像字幕生成的自然性和多样性,其中一个生成器可以根据图像生成描述,并使用一个评估器来评估描述与视觉内容的匹配程度。
Mar, 2017
本文提出一种简单而有效的方法来实现一致性视频编辑,通过优化潜在编码和预先训练的生成器,减少时间光度不一致,并在不同领域和 GAN 逆推技术上得到了有利的结果。
Jun, 2022
通过训练 Text-to-Image-to-Video Generative Adversarial Network 模型,我们实现了对于给定的文本描述,生成相对应的视频,进而对深度学习、视频生成等相关领域进行研究探索。
Sep, 2020
本文提出了一种基于生成式对抗网络(GANs)的、直接从无声视频中合成自然语音的端到端模型,能够根据视频内容生成与其同步的语音,并在 GRID 数据集上进行了性能评估,实现了从视频到裸音频的首次直接映射,并能够识别新演讲者的语音,并在音质和准确性方面对生成的音频进行评价。
Jun, 2019
该研究提出了一种网络架构,利用标题执行可变长度的语义视频生成。网络能够区分视频中的对象,动作和交互,并将它们与长期和短期依赖结合起来,以增量方式生成视频。网络通过学习潜在表示对视频进行无监督生成,并在执行其他任务时表现出了良好的能力,如动作识别和空时样式转移。
Aug, 2017
该研究提出了一种联合框架解决视频自动生成字幕中的三个关键问题,包括融合时空信息增强物体建议、动态提取高语义级别的视觉词,以及生成字幕验证确保语义概念的有效保留。实验表明该方法在各种评价指标上都显著优于现有的自然语言生成模型。
Aug, 2021
本文提出了一种基于生成对抗学习框架、伴随有空间–时间对抗性目标的视频生成方法,可高效地从语义分割掩膜、素描和姿势等多种输入格式生成 2K 分辨率、30 秒长的逼真视觉效果的视频,此方法成功优化了视频生成技术的最新发展状态,并被应用于未来视频预测。
Aug, 2018