Jan, 2017

从联合音视频分析中学习类似单词的单位

TL;DR本文提出了一种通过语音信号和图像区域的语义相关性,发现连续语音信号中类似于单词的语音单元,并将其与图像区域相关联的方法。这个模型能够有效地实现一种口语语言习得的形式,不使用常规的自动语音识别或文本传输,同时丰富学习词汇的语义含义及图像联系。