Sep, 2019

基于视觉语音的大规模表征学习

TL;DR这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕,并且通过使用双编码器来对音频和图像进行编码,使用掩码边界软最大损失对这些模型进行微调,并在 Flickr8k 音频字幕语料库上实现了最新的结果。