Jul, 2022

面向多模态视觉语言模型生成非通用文本

TL;DR本文主要介绍了一种将人名加入生成文本的新方法,通过使用 OCR 识别图像中的文字并 fine-tuning 预训练模型,我们的方法在生成文本的时候自然地加入了人名信息。为了达到这个目的,我们修改了之前的多模态框架,接受来自任意数量的辅助分类器提供的相关信息。同时,我们创建了一个新的图像 - 标题数据集,名为 PAC,这个数据集包含了一些知名人物的图像和对这些图像的描述,这些描述中包含了人名。