May, 2024

Lumina-T2X:基于流式大规模扩散转换器将文本转化为任何模态、分辨率和持续时间

TL;DRLumina-T2X 是一种 Flow-based Large Diffusion Transformer (Flag-DiT) 模型,通过将不同模态的表示统一到一个框架中,实现了任意分辨率、宽高比和长度的图像、视频、多视角 3D 物体和音频剪辑的生成。采用 RoPE、RMSNorm 和 Flow matching 等先进技术,Lumina-T2X 模型在稳定性、灵活性和可伸缩性方面取得了突破,并在分辨率外推、高分辨率编辑、一致的 3D 视图合成和视频过渡等任务中展现了出色的性能。