Jan, 2024

文本到图像跨模态生成:系统综述

TL;DR通过 “跨模态生成” 这一视角回顾了关于从文本生成视觉数据的研究,对各种针对输入文本并产生视觉输出的方法进行了比较和对比,并提出了在领域中的常见模板,逐一探讨了图片 - 文本方法、视频 - 文本方法、图片编辑、自监督和基于图形的方法。对 2016 年至 2022 年在 8 个机器学习领域的顶级学术会议上发表的研究论文进行了总结,也纳入了一些与所述搜索标准不匹配的相关论文,发现该领域的发表论文数量显著增加,并凸显了研究空白和潜在的研究方向。据我们所知,这是首个系统地从 “跨模态生成” 的视角来审视文本到图像生成的综述。