Jun, 2024

仅使用图像进行语音翻译

TL;DR通过现有的图像字幕系统,将图像与文本相连接,实现语音音频与文本之间的直接映射,从而扩展了视觉语音模型的连接方式。本研究在一个低资源语言 Yorùbá 上,提出了一种 Yorùbá- 英语语音翻译模型,利用预训练组件以实现在低资源环境中的学习,并通过使用能产生多样的图像字幕的解码方案来限制过拟合现象。结果显示预测的翻译捕捉到了口头音频的主要语义,尽管形式上更简单且更简短。