Jul, 2024

实时低信噪比音频视觉语音增强

TL;DR我们提出了 RT-LA-VocE 模型,通过重新设计 LA-VocE 的每个组件,实现了从实时视频流和嘈杂的音频流中逐帧生成清晰语音的能力,不依赖未来输入,达到了最小的理论延迟 (40ms) 和低的端到端处理延迟 (28.15ms / 帧),在所有实时场景中实现了最先进的结果。