Humans learn language by interaction with their environment and listening to
other humans. It should also be possible for computational models to learn
language directly from speech but so far most approaches require text. We
improve on existing neural network approaches to create visu
通过现有的图像字幕系统,将图像与文本相连接,实现语音音频与文本之间的直接映射,从而扩展了视觉语音模型的连接方式。本研究在一个低资源语言 Yorùbá 上,提出了一种 Yorùbá- 英语语音翻译模型,利用预训练组件以实现在低资源环境中的学习,并通过使用能产生多样的图像字幕的解码方案来限制过拟合现象。结果显示预测的翻译捕捉到了口头音频的主要语义,尽管形式上更简单且更简短。