AAAIDec, 2023

通过图像适应提示调整的复合文本引导

TL;DR对视觉语言模型进行复合文本引导的提示调整 (TGP-T),通过引入文本监督和视觉特征对齐模块 (Bonder),可以显著降低 GPU 内存占用,同时实现了卓越的性能。