MMAug, 2023
CgT-GAN:基于 CLIP 引导的文本 GAN 用于图像字幕生成
CgT-GAN: CLIP-guided Text GAN for Image Captioning
Jiarui Yu, Haoran Li, Yanbin Hao, Bin Zhu, Tong Xu...
TL;DR提出了一个 CLIP 引导的文本生成对抗网络 (CgT-GAN) 模型,通过引入图像数据进行训练,结合语义指导奖励 (CLIP-based reward) 和生成文本的自然度奖励来生成与外部语料库相似的文字。在实验证明,CgT-GAN 在各项指标上明显优于现有的最先进方法。