Sep, 2024

MonoFormer:一个变压器同时用于扩散和自回归

TL;DR本研究针对现有多模态方法中自回归文本生成与扩散视觉生成使用分离主干的问题,提出了共享单一变压器的创新思路。研究表明,该方法在图像生成性能上可与当前最先进的方法媲美,同时保留文本生成能力,具有广泛的应用潜力。