Sep, 2023
基于视觉语言预训练和多模态令牌的实用高效图像语音字幕生成
Towards Practical and Efficient Image-to-Speech Captioning with
Vision-Language Pre-training and Multi-modal Tokens
TL;DR本文提出了一种强大而高效的图像到语音字幕(Im2Sp)模型构建方法,引入了大规模预训练的视觉-语言模型相关知识,并将其输出设置为离散化的语音单元,即自我监督语音模型的量化语音特征,以实现将预训练的视觉-语言模型的语言建模能力融入到Im2Sp的口语化建模中,从而在广泛使用的基准数据库COCO和Flickr8k上取得了新的最先进的Im2Sp性能,并进一步提高了Im2Sp模型的效率。