Jun, 2024

鲁棒的多模态语音修复:一种序列到序列的方法

TL;DR通过引入 AV 特征,我们研究了一种序列到序列(seq2seq)语音修复模型,将语音修复技术扩展到同时受到音频和视觉数据干扰的情境中,实验证明我们的模型在提高语音质量和可理解性方面优于现有的变压器解决方案。同时,我们利用多任务学习框架,在恢复相关语音的同时进行口型阅读(将视频组件转录为文本)。