Jun, 2024

Action2Sound: 环境感知的从自我为中心视频生成行动声音

TL;DR提出了一种新颖的环境感知音频生成模型,用于根据视频内容生成符合语义和时间要求的音频;使用了特殊的音频条件机制,以在野外训练视频中学习将前景动作声音与环境背景声音解耦合。