Apr, 2018

从原始感官输入中联合发现视觉对象和口语单词

TL;DR本文针对语音与图像之间的语义关联关系,探讨了不需要传统监督方式的神经网络模型,并使用了 Places 205 和 ADE20k 数据集来验证模型,在不太需要标签、分割或模态对齐的情况下可以实现语音和图像的自动检索、详细定位以及进行时间、空间上的隐含的物体和单词检测。