May, 2024

纯文本合成图像描述

TL;DR提出了ToCa方法,通过将标题文本分解为结构和词汇单词,利用大型语言模型生成包含各种词汇模式的大量标题,从而实现对图像标题生成的非人力和计算成本的进一步放宽。