Sep, 2024
动态提示冻结文本至图像扩散模型以实现全景叙事对接
Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic
Narrative Grounding
TL;DR本研究解决了全景叙事对接中图像与文本之间的细粒度对齐问题。通过提出一种提取-注入短语适配器(EIPA),该方法动态更新短语提示以更好地与图像特征交互,显著提高了扩散模型在此任务上的表现。此外,设计的多层互聚合(MLMA)模块进一步增强了多层次特征的融合和细分。实验表明,该方法在基准测试中达到了新的最先进性能。