Mar, 2025
RealGeneral:通过视频模型实现统一的视觉生成
RealGeneral: Unifying Visual Generation via Temporal In-Context Learning
with Video Models
TL;DR本研究解决了在单一框架中统一多样化图像生成任务的挑战。我们提出了一种新颖的框架RealGeneral,它将图像生成重新定义为条件帧预测任务,并引入统一的条件嵌入模块和统一流DiT块,减少了模态间干扰。实验结果表明,RealGeneral在多个重要视觉生成任务中表现出色,能够显著提高生成的主题相似性和图像质量。