May, 2024

图像合成中的计算权衡:扩散,掩码令牌和下一个令牌预测

TL;DR最近的图像合成方法主要使用 Transformer 网络架构,本研究通过计算预算的可扩展性对这些方法进行比较,发现基于标记预测的方法在提示后续上明显优于扩散,但在图像质量上,扩散表现与扩大趋势相匹配。论文还比较了每种方法的推理计算效率,发现基于标记预测的方法是最高效的。根据研究发现,建议在追随提示或吞吐量更重要时使用标记预测,而在追求图像质量和低延迟的应用场景中使用扩散。