Apr, 2022

无 Token 留存:可解释性辅助的图像分类与生成

TL;DR本研究提出了一种基于解释性的方法来解决在零样本学习和图像生成中使用 CLIP 时输入文本的稳定性问题,此方法通过增加一项损失项来确保 CLIP 关注所有相关的语义部分,并且可以提高图像识别率和生成图像的质量。同时,研究还展示了 CLIP 在一次性分类、对生成模型进行指导和有空间条件的基于文本的图像生成方面的新型应用。