May, 2024
视觉回声:简单统一变压器用于音视频生成
Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation
Shiqi Yang, Zhi Zhong, Mengjie Zhao, Shusuke Takahashi, Masato Ishii...
TL;DR通过使用简单轻量级的生成型 Transformer 模型,本论文在图像到音频生成任务上取得了更好的性能,同时也可用于音频到图像生成和协同生成。