Generative Disco: 音乐可视化的文本到视频生成

Apr, 2023

Generative Disco: 音乐可视化的文本到视频生成

Generative Disco: Text-to-Video Generation for Music Visualization

Vivian Liu, Tao Long, Nathan Raw, Lydia Chilton

TL;DR使用生成 AI 系统 Generative Disco，可以根据音乐的节奏生成音频反应的视频，并通过设计模式进行改进，纵向分为转换和保持，研究表明该系统易于使用且高度表现力，适用于专业人士和 AI 生成内容正在改变创作工作的领域。

Abstract

Visuals are a core part of our experience of music, owing to the way they can amplify the emotions and messages conveyed through the music. However, creating music visualization is a complex, time-consuming, and resource-intensive process. We introduce Generative Disco, a →

music visualization generative ai audioreactive video design patterns ai-generated content

发现论文，激发创造

像素跳舞：高动态视频生成

基于扩散模型的 PixelDance 结合图像指令和文本指令，展现了合成复杂场景与精细动作的视频生成能力，创立了新一代的视频生成标准。

Nov, 2023

Music2Video：音频和文本融合的自动生成音乐视频

利用多模态特征空间中的文本和音频嵌入指导生成模型的生成图像，进一步实现音乐视频创作，我们提出的方法需要对视频进行自动分段，同时保持时间上的一致性，与以前的方法不同，我们的方法融合了文本和音频两个模态，展示了良好的应用效果

Jan, 2022

DisCo: 面向现实世界参考人体舞蹈生成的解耦控制

本文中，我们定义了一个新的问题，即指代人类舞蹈生成，并且介绍了一种名为 DISCO 的新方法，该方法利用一种新的模型架构，并且采用分离式控制，以提高舞蹈合成的保真度和可组合性，并采用有效的人类特征预训练以实现更好的通用性。结果表明，DISCO 可以生成高质量的人类舞蹈图像和视频，具有多种外观和灵活的动作。

Jun, 2023

从舞蹈视频生成复杂音乐的量化生成对抗网络

D2M-GAN 是一个基于多模态对抗网络的音乐生成框架，能够根据舞蹈视频生成对应的流行音乐等复杂风格，使用向量量化的音频表示，通过对多个数据集的评估，证明了此方法的有效性，并提供了一个使用 TikTok 视频的数据集用于未来相关研究的起点。

Apr, 2022

Text-Animator: 可控的视觉文本视频生成

我们提出了一种创新的方法 Text-Animator，用于视觉文本视频生成，通过精确描述生成视频中视觉文本的结构，并通过控制摄像机移动和文本运动来改善生成视觉文本的稳定性，实验证明了我们方法在生成视觉文本准确性上的优越性。

Jun, 2024

基于文本的视频生成

通过训练条件生成模型从文本中提取静态和动态信息，结合 VAE 和 GAN 的混合框架，采用画线和过滤器来生成可信度高和多样性强的文本视频。

Oct, 2017

Dance2Music: 自动舞蹈驱动音乐生成

本研究探索了实现在给定舞蹈的情况下生成音乐的可能性，并基于搜索算法和深度神经网络开发了两种不同的方法，并通过与强启发法基准模型的比较，证明了这些方法的有效性。

Jul, 2021

大规模生成式人工智能文本在体育和音乐领域的应用

利用生成式 AI 模型，我们解决了大规模体育和音乐活动媒体内容（如评论和个性化新闻报道）的生产问题，并成功应用于 2023 年美网、温网和大师赛的自动化解说系统以及 ESPN Fantasy Football 和格莱美奖音乐艺术家故事的个性化内容创作，实现了 15 倍的速度提升，平均 Rouge-L 达到 82.00，困惑度为 6.6。我们的工作成功地支持了全球 9000 万球迷的 8 亿页面浏览，不断推动体育、娱乐和人工智能交叉领域的边界。

Jan, 2024

Video2Music: 使用情感多模态 Transformer 模型从视频中生成合适的音乐

在本研究中，我们开发了一个名为 Video2Music 的生成音乐 AI 框架，能够根据提供的视频生成配套的音乐。我们的方法通过分析音乐视频获取语义、场景、运动和情感特征，并利用这些特征来指导音乐生成模型。我们还创建了一个称为 MuVi-Sync 的多模态数据集，用于训练新颖的 Affective Multimodal Transformer (AMT) 模型，以生成与视频相匹配的音乐。在实验证明，我们的提出的框架能够生成与视频内容情感相符的音乐，并通过用户研究证实了音乐质量和音乐与视频的匹配质量。我们的提出的 AMT 模型和新数据集 MuVi-Sync 为视频音乐生成任务迈出了有希望的一步。

Nov, 2023

舞蹈视频生成中的节拍与视觉融合

通过音乐作为条件输入，直接从静态图像中生成舞蹈视频的 Dance Any Beat Diffusion 模型引入了图像到视频生成原则，采用了音乐作为图像到视频生成的条件因素。

May, 2024