MMOct, 2021

一幅画胜千言:用于生成多样化字幕和富有表现力图像的统一系统

TL;DR该研究采用创意图像和文本生成 AI 系统,通过多模态框架实现了多样化的标题和图像创建,同时采用 Transformer 网络模型支持多种标题参考,采用非自回归解码策略实现实时推断。