CVPRJun, 2020

语音描述图像和视频的转录增强联合嵌入

TL;DR本研究提出了一种有效的方法,通过结合图像、口头和文本叙述三种同时模态的特征来训练唯一的嵌入表示,实验证明加入人工生成的文本转录可以提升训练程序,在任务如图像和语音的检索中取得了更好的嵌入表示的性能。