Jul, 2024

从文本和视频中生成声音

TL;DR提出了一种名为ReWaS的新型视频和文本生成声音的方法,通过视频作为文本到音频生成模型的条件控制,从视频中估计音频的结构信息(即能量),同时从用户提示中接收关键内容线索。通过分离音频的生成组件,提供了一个更灵活的系统,允许用户根据其偏好自由调整能量、周围环境和主音源。实验结果证明了该方法在质量、可控性和训练效率方面的优越性。