A widespread approach to processing spoken language is to first automatically
transcribe it into text. An alternative is to use an end-to-end approach:
recent works have proposed to learn semantic embeddings of spoken language from
images with spoken captions, without an intermediate t
通过现有的图像字幕系统,将图像与文本相连接,实现语音音频与文本之间的直接映射,从而扩展了视觉语音模型的连接方式。本研究在一个低资源语言 Yorùbá 上,提出了一种 Yorùbá- 英语语音翻译模型,利用预训练组件以实现在低资源环境中的学习,并通过使用能产生多样的图像字幕的解码方案来限制过拟合现象。结果显示预测的翻译捕捉到了口头音频的主要语义,尽管形式上更简单且更简短。