May, 2023

轻量级迭代模型在嘈杂环境下的音像语音分离

TL;DR本文提出了一种名为 AVLIT 的轻量级神经网络,使用渐进学习(PL)在嘈杂的环境中进行音视频语音分离。通过异步完全循环卷积神经网络(A-FRCNN)的结构分支,我们的模型在音频和视觉两个分支下进行迭代学习,并在音频和视觉分离方面表现出较高的精度。同时由于模型尺寸小,因此适合低资源环境应用。