Apr, 2024

CoMat: 文本到图像扩散模型与图像到文本概念匹配的对齐

TL;DR提出了 CoMat,一种将图像到文本概念匹配机制与端到端扩散模型微调策略相结合的方法,通过利用图像字幕模型衡量图像到文本的对齐性并指导扩散模型重新访问忽略的标记,解决了文本提示与图像之间的对齐不足问题。在两个文本到图像对齐基准测试中,CoMat-SDXL 相对于基准模型 SDXL 表现出色,达到了最先进的性能。