MMAug, 2023

CgT-GAN:基于 CLIP 引导的文本 GAN 用于图像字幕生成

TL;DR提出了一个 CLIP 引导的文本生成对抗网络 (CgT-GAN) 模型,通过引入图像数据进行训练,结合语义指导奖励 (CLIP-based reward) 和生成文本的自然度奖励来生成与外部语料库相似的文字。在实验证明,CgT-GAN 在各项指标上明显优于现有的最先进方法。