Dec, 2023

MagicScroll: 多层语义感知去噪的视觉叙事非典型宽高比图像生成

TL;DR使用MagicScroll,一种多层、渐进式扩散型图像生成框架,结合新颖的语义感知去噪过程,提供了对于生成图像的对象、场景和背景层面的细粒度控制,借助文本、图像和布局条件,能够改善与叙述文本的一致性,提高视觉连贯性,并吸引观众,并且建立了关于视觉叙事中非典型宽高比图像生成的基准,其中包括绘画作品、漫画和电影全景等媒体,并针对其进行了系统评估。