Oct, 2023

利用无配对数据进行视觉 - 语言生成模型的循环一致性优化

TL;DR本文介绍了 ITIT(InTegrating Image Text)模型,采用循环一致性原则,通过在未配对的图像和文本数据上进行双向图像到文本和文本到图像的生成,实现视觉语言训练,并证明其在与高质量配对数据相比的图像生成和字幕性能上表现类似。