Mar, 2023

MixSpeech: 跨模态自学习中的音频 - 视觉流混合应用于视觉语音翻译和识别

TL;DR本研究通过提出混合语音框架来克服跨语言视觉语音翻译中缺乏的可翻译数据问题,并提出在嘈杂环境下提高语音翻译效果的方法。