Sep, 2023

基于视觉语言预训练和多模态令牌的实用高效图像语音字幕生成

TL;DR本文提出了一种强大而高效的图像到语音字幕(Im2Sp)模型构建方法,引入了大规模预训练的视觉-语言模型相关知识,并将其输出设置为离散化的语音单元,即自我监督语音模型的量化语音特征,以实现将预训练的视觉-语言模型的语言建模能力融入到Im2Sp的口语化建模中,从而在广泛使用的基准数据库COCO和Flickr8k上取得了新的最先进的Im2Sp性能,并进一步提高了Im2Sp模型的效率。