Nov, 2022

M-SpeechCLIP: 利用大规模预训练模型实现多语言语音到图像检索

TL;DR此研究探讨了使用大规模预训练模型(CLIP 和 HuBERT)进行多语言语音图像检索的方法,并取得了比现有最新技术更好的非英语语音图像检索成果。