- 混响作为语音分离监督
本文提出了一种新的无监督算法损失函数,称为混响作为监督(RAS),使用两个信道的混合信号,训练神经网络以分离源,并通过维纳滤波器来评估所分离出的混响信号。实验结果表明,相对于只使用已标注数据和使用完整数据的有监督算法,本方法在只有 5% 到 - 大规模自监督学习的语音分离
本文探讨了如何扩大自监督学习(SSL)的规模,以更好地应用于语音分离问题。通过使用大量的预训练数据进行 fine-tuning,提出的模型在节省了 38% 计算成本的同时,相比于监督学习方法和基于 WavLM 的模型,在一些测试数据集上的单 - CasNet: 探究语音分离的通道稳健性
该研究介绍了一种建立在深度学习框架上的端到端时间域语音分离方法,称作基于通道感知音频分离网络 (CasNet),其中引入由通道编码器生成的通道嵌入来解决混合语音中的通道问题,实验结果表明使用此方法的 CasNet 比传统无通道嵌入的 Tas - 基于可变形时间卷积神经网络的单声道嘈杂混响语音分离
本研究提出了一种新的方法,使用可变形卷积解决了语音分离领域中存在固定跨度的问题,通过应用此方法,研究人员获得了优秀的性能。
- ICLR一种高效的编码器 - 解码器体系结构,具有自上而下的注意力,用于语音分离
本文提出了一种模拟大脑自上而下关注机制的、模型复杂度较低但表现优异的基于编码器 - 解码器的深度神经网络架构 TDANet,并在三个基准数据集上验证其高效性和有效性。
- ESPnet-SE++:面向鲁棒语音识别、翻译和理解的语音增强
本文介绍了将语音分离和增强(SSE)纳入 ESpnet 工具包的最新进展,包括最新的语音增强模型及其评估,并设计了新界面将语音增强应用于前端任务包括自动语音识别(ASR)、语音翻译(ST)和口语理解(SLU),实验表明其在多通道场景下是一种 - 分离 - 转换 - 分段器:多方语音的流式识别和分割
提出了一种基于神经网络的新方法 ——STS,包括一种新的分割建模策略和一种新的发射规则方法 FastEmit 等,用于多方会谈的流媒体识别和分割。
- 带有师生学习的极速语音分离模型
该论文提出了一种使用教师 - 学生学习方法,采用逐层教学和目标偏移机制的超快速语音分离 Transformer 模型,相较于从头开始训练的小型 Transformer 模型,在 LibriCSS 数据集上,能够将语音分离的单词错误率(WER - 语言和信道变异对语音分离网络影响的分解
本文研究语音分离的问题,发现不同语言对模型的影响可忽略,而采用安卓手机录制的数据进行训练可以得到最好的泛化性能。同时,作者提出了一种针对信道不匹配的新的解决方案,通过测量信道相似性并选择合适的训练数据,可以有效提高模型在实际测试数据上的性能 - ICASSP 2022 多通道多方会议转录挑战赛的 Royalflush 演讲者分离系统
该研究提出将多通道和 U 型网络模型相结合,利用并行和远场声学的优势,在说话人识别系统中实现远场重叠语音检测,并探索了三种说话人嵌入方法,最终取得了最佳性能。
- 使用异步完全循环卷积神经网络进行语音分离
本论文提出采用一种名为全循环卷积神经网络(Fully Recurrent Convolutional Neural Network, FRCNN)的生物启发式体系结构来解决语音分离任务,并通过异步更新机制,在三个基准数据集上显著提高了语音分 - 双通道滤波网络:面向语音分离的说话人感知建模
本文中,我们提出一种名为双路滤波器网络的新型模型,它由说话者模块和分离模块组成,旨在改善语音分离的性能,避免排列不变性训练的问题,并在 DPRNN-TasNet 基础上构建,不仅优于 DPRNN-TasNet,而且能够识别说话者信息。
- 优化置换训练的多说话人单通道语音分离
本研究提出一种使用匈牙利算法进行排列不变训练的神经语音分离方法,可以高效地处理多达 20 个说话者的语音数据。
- Sandglasset:一种轻量级多粒度自注意力网络用于时域语音分离
我们提出了一种名为 Sandglasset 的自注意力网络,它采用多粒度特征,成功地提高了语音分离性能,与先前最先进结果相比,模型更小,计算成本更低,且在两个基准语音分离数据集上都表现出最佳结果。
- ESPnet-se: 面向 ASR 集成的端到端语音增强和分离工具包
ESPnet-SE 是一个新的工具包,支持前端语音增强和分离的性能验证和自动语音识别的相关模型和系统的集成,它能够处理单声道和多声道数据,并提供数据预处理、特征提取、训练和评估流程的全套配方。
- 关注在语音分离中至关重要
本文介绍了一种基于 Transformers、无 RNN 结构的深度神经网络,即 SepFormer,并运用多尺度方法使其实现短时和长时依赖性的学习,从而在语音分离任务中取得了最优结果,并具有较高的计算速度和较小的内存占用。
- 基于深度学习的音视频语音增强和分离概述
本文系统综述了基于深度学习的音视频语音增强和分离技术,特别关注了声学和视觉特征、深度学习方法、融合技术以及训练目标和目标函数。同时,还回顾了基于深度学习的无声视频语音重建和语音信号分离的常见方法,并介绍了常用的音视频数据集和评估方法。
- LibriMix:一个通用语音分离开源数据集
本文介绍了一种解决训练数据与测试数据相似度低导致模型泛化性能下降的方法:设计了一个基于 LibriSpeech 的语音混合数据集 LibriMix,证明使用 LibriMix 训练的深度学习模型,在各种条件下比使用 WHAM! 训练的模型表 - CHiME-6 Challenge:处理未分割录音的多说话人语音识别
本文介绍了基于 CHiME-6 Speech Separation and Recognition Challenge(CHiME-6)的多说话人语音分离和识别问题,该比赛首次尝试了基于无分割的多说话人语音识别方案,并提供了完整的可重现性开 - 通过说话人聚类的端到端语音分离算法 Wavesplit
Wavesplit 是一种端到端的源分离系统,可以通过聚类推断每个源的表示,并给出估计的源信号,从而重新定义干净的混合 2 或 3 个讲话者(WSJ0-2/3mix)以及嘈杂和混响环境(WHAM/WHAMR)的最新技术水平。