CVPRNov, 2021

预测、预防和评估:由预训练的视觉语言模型赋能的分解文本驱动图像操作

TL;DR该研究提出了一种新的基于文本的图像操作框架,该框架几乎不需要手动注释,并使用大规模预训练的视觉语言模型 CLIP,通过预测属性、引入脱缰损失和提出新的评估指标来实现图像操作的解开,该框架在复杂的人脸编辑任务中获得比现有 StyleCLIP 基准更好的定量和定性结果。