基于深度学习的语音分离监督方法概述
本文系统综述了基于深度学习的音视频语音增强和分离技术,特别关注了声学和视觉特征、深度学习方法、融合技术以及训练目标和目标函数。同时,还回顾了基于深度学习的无声视频语音重建和语音信号分离的常见方法,并介绍了常用的音视频数据集和评估方法。
Aug, 2020
研究使用对比学习建立框架的表示,并使用学到的表示在下游深度模块化任务中,自监督学习以最小化属于给定说话者的框架之间的距离,以进行语音分离。通过 WSJ0-2mix 和 WSJ0-3mix 的评估,该技术的性能不会随着说话者数量的增加而显着降低。
May, 2023
本文提出一种两阶段的自我监督框架,旨在实现耳机和助听器等双耳应用中的音频语音分离,该方法通过区域方式将具有细粒度空间属性的自适应信号从底噪中分离出来进行训练,并表现出远超通用监督学习的性能。
Jul, 2022
本研究提出一种基于弱标注数据训练的源分离框架,利用 AudioSet 训练的音频事件检测系统,实现了对 527 种声音类别的分离,采用了 U-Net 结构,平均信噪比为 5.67dB。
Feb, 2020
本文综述了说话人识别的几个主要子任务,包括说话人验证、识别、日程管理和鲁棒的说话人识别,着重介绍基于深度学习方法的说话人特征提取、说话人日程管理和鲁棒的说话人识别,以及领域适应和语音增强等方面的最新研究进展。
Dec, 2020
深度学习在语音分离方面的应用及其对多说话人语音识别的整合进行了深入研究,并提出了一种通过复杂谱映射和自监督学习表示进行的训练策略,从而在噪声和混响环境下显著提升多说话人语音识别性能。
Jul, 2023
我们提出了一种联合音频 - 视觉模型,用于从包括其它说话者和背景噪声在内的混合声音中分离单个语音信号,并且利用深度学习和 AVSpeech 数据集,实现了人脸指定后的语音分离任务,相较于仅使用音频的方法,在多说话人的情况下表现出更好的效果。
Apr, 2018