Jul, 2022

在文本引导的图像生成中测试关系理解

TL;DR本研究使用了 15 种基本物质和社会关系对最近的文本引导图像生成模型 DALL-E2 进行了系统的经验性考察,发现只有大约 22%的图像与基本关系提示匹配。研究结果表明,当前的图像生成模型尚未掌握涉及简单对象和代理人的基本关系,本文从认知和计算两个角度,提出可能的改进方向。