May, 2024

视觉回声:简单统一变压器用于音视频生成

TL;DR通过使用简单轻量级的生成型 Transformer 模型,本论文在图像到音频生成任务上取得了更好的性能,同时也可用于音频到图像生成和协同生成。