Generative Disco: 音乐可视化的文本到视频生成
利用多模态特征空间中的文本和音频嵌入指导生成模型的生成图像,进一步实现音乐视频创作,我们提出的方法需要对视频进行自动分段,同时保持时间上的一致性,与以前的方法不同,我们的方法融合了文本和音频两个模态,展示了良好的应用效果
Jan, 2022
本文中,我们定义了一个新的问题,即指代人类舞蹈生成,并且介绍了一种名为 DISCO 的新方法,该方法利用一种新的模型架构,并且采用分离式控制,以提高舞蹈合成的保真度和可组合性,并采用有效的人类特征预训练以实现更好的通用性。结果表明,DISCO 可以生成高质量的人类舞蹈图像和视频,具有多种外观和灵活的动作。
Jun, 2023
D2M-GAN 是一个基于多模态对抗网络的音乐生成框架,能够根据舞蹈视频生成对应的流行音乐等复杂风格,使用向量量化的音频表示,通过对多个数据集的评估,证明了此方法的有效性,并提供了一个使用 TikTok 视频的数据集用于未来相关研究的起点。
Apr, 2022
我们提出了一种创新的方法 Text-Animator,用于视觉文本视频生成,通过精确描述生成视频中视觉文本的结构,并通过控制摄像机移动和文本运动来改善生成视觉文本的稳定性,实验证明了我们方法在生成视觉文本准确性上的优越性。
Jun, 2024
本研究探索了实现在给定舞蹈的情况下生成音乐的可能性,并基于搜索算法和深度神经网络开发了两种不同的方法,并通过与强启发法基准模型的比较,证明了这些方法的有效性。
Jul, 2021
利用生成式 AI 模型,我们解决了大规模体育和音乐活动媒体内容(如评论和个性化新闻报道)的生产问题,并成功应用于 2023 年美网、温网和大师赛的自动化解说系统以及 ESPN Fantasy Football 和格莱美奖音乐艺术家故事的个性化内容创作,实现了 15 倍的速度提升,平均 Rouge-L 达到 82.00,困惑度为 6.6。我们的工作成功地支持了全球 9000 万球迷的 8 亿页面浏览,不断推动体育、娱乐和人工智能交叉领域的边界。
Jan, 2024
在本研究中,我们开发了一个名为 Video2Music 的生成音乐 AI 框架,能够根据提供的视频生成配套的音乐。我们的方法通过分析音乐视频获取语义、场景、运动和情感特征,并利用这些特征来指导音乐生成模型。我们还创建了一个称为 MuVi-Sync 的多模态数据集,用于训练新颖的 Affective Multimodal Transformer (AMT) 模型,以生成与视频相匹配的音乐。在实验证明,我们的提出的框架能够生成与视频内容情感相符的音乐,并通过用户研究证实了音乐质量和音乐与视频的匹配质量。我们的提出的 AMT 模型和新数据集 MuVi-Sync 为视频音乐生成任务迈出了有希望的一步。
Nov, 2023
通过音乐作为条件输入,直接从静态图像中生成舞蹈视频的 Dance Any Beat Diffusion 模型引入了图像到视频生成原则,采用了音乐作为图像到视频生成的条件因素。
May, 2024