BriefGPT.xyz
Apr, 2018
以视觉为中介语:学习多语种未转写语音的语义嵌入
Vision as an Interlingua: Learning Multilingual Semantic Embeddings of Untranscribed Speech
HTML
PDF
David Harwath, Galen Chuang, James Glass
TL;DR
本文讨论了在自然图像和描述这些图像内容的语音波形中学习神经网络嵌入的方法。我们展示了这些技术可成功应用于英语和印地语等多种语言,通过在两种语言上同时进行训练,可以提高模型的性能,并且这些模型可以执行语义跨语言语音检索。
Abstract
In this paper, we explore the learning of
neural network embeddings
for
natural images
and
speech waveforms
describing the content of thos
→