May, 2023

训练先验预测文本到图像模型的性能

TL;DR本文研究了基于 SVO 三元组的文本到图像模型的训练机制,发现该类模型生成图像的能力建立在模型对于大量训练数据中频繁的三元组的记忆上,而对于训练数据中出现较少的关系组合以及非典型角色的概念,模型的性能较差。这表明了当前的文本到图像模型存在着较强的训练偏置,难以在生成图像的任务中使用传统意义下的抽象组合结构,其表现更像是已有训练数据之间的插值运算。