CVPRNov, 2021
预测、预防和评估:由预训练的视觉语言模型赋能的分解文本驱动图像操作
Predict, Prevent, and Evaluate: Disentangled Text-Driven Image Manipulation Empowered by Pre-Trained Vision-Language Model
Zipeng Xu, Tianwei Lin, Hao Tang, Fu Li, Dongliang He...
TL;DR该研究提出了一种新的基于文本的图像操作框架,该框架几乎不需要手动注释,并使用大规模预训练的视觉语言模型 CLIP,通过预测属性、引入脱缰损失和提出新的评估指标来实现图像操作的解开,该框架在复杂的人脸编辑任务中获得比现有 StyleCLIP 基准更好的定量和定性结果。