Mar, 2025

MEAT:用于人类生成的多视角扩散模型,具有网格注意力机制

TL;DR该研究解决了现有多视角扩散模型在生成高分辨率人类图像时遇到的挑战,特别是在提升到百万像素级别时的效果不佳。通过引入网格注意力机制,该方法在1024x1024分辨率下实现了高效训练,显著简化了多视角注意力的复杂性并保持视角一致性。实验结果表明,MEAT模型在生成密集且一致的人类多视角图像方面优于现有方法。