MMOct, 2021
一幅画胜千言:用于生成多样化字幕和富有表现力图像的统一系统
A Picture is Worth a Thousand Words: A Unified System for Diverse Captions and Rich Images Generation
Yupan Huang, Bei Liu, Jianlong Fu, Yutong Lu
TL;DR该研究采用创意图像和文本生成 AI 系统,通过多模态框架实现了多样化的标题和图像创建,同时采用 Transformer 网络模型支持多种标题参考,采用非自回归解码策略实现实时推断。