该研究提出了一种新颖的噪声自适应语音增强系统,该系统采用领域对抗训练方法解决训练和测试条件之间的噪声类型不匹配问题。实验结果表明,相较于没有自适应的 SE 系统,该系统在 PESQ、SSNR 和 STOI 方面可实现显著改善。
Jul, 2018
本文介绍了一种基于生成对抗网络(GAN)的噪声鲁棒性语音识别系统,只需使用 10 分钟的领域内无法匹配的嘈杂语音数据即可实现噪声谱的仿真。同时,我们还提出了一种双通道语音识别系统来提高在嘈杂环境下的稳健性能,实验证明所提出的系统通过 Simu-GAN 仿真噪声数据,比最佳基线在词错误率(WER)方面提高了 7.3%。
Mar, 2022
本研究提出使用生成对抗网络进行语音增强,通过训练模型使其在波形级别对 28 个说话人和 40 种不同噪声条件进行增强,目的是解决当前技术只能处理少量特定噪声条件和依赖于一阶统计量的问题,实验证明该模型的可行性和有效性,未来可以进一步探索生成性结构用于提高语音增强的性能。
Mar, 2017
利用对抗性学习进行无监督适应性,采用神经网络和未分类的适应性数据解决了远程语音识别问题,相对于没有适应的模型,相对词错误率下降了 19.8%。
本文提出了一种基于深度神经网络的非监督领域自适应技术,该技术通过训练既能执行音素分类,又能执行领域分类的 DNN 模型,并明确建模两个域之间的不同之处,可以在 CHiME-3 数据集上实现接近 11.08%的相对词错误率(WER)降低。
Nov, 2017
本文采用基于自动选择属性变化的方法,通过对抗性学习和数据增强对源域语音数据进行协同变换以解决在鲁棒语音识别中遇到的训练 - 测试领域差异问题,实验表明将绝对词语误差率最多降低 35%。
Jul, 2017
该论文提出了一种新颖的无监督自适应方法,通过学习利用目标领域的无标签数据和标记的领域外数据,合成标记数据,从而解决自然语言处理中对于各种语言和领域进行自然语言处理的需求。
Jun, 2018
本文提出了一种使用离线课程学习和代理分布的边际差异方法来消除标签噪声和特征噪声的领域自适应算法,并将其无缝转化为一个对抗网络进行联合优化,在存在噪声的环境下,与现有技术相比取得了超过 10%的准确度提高。
Apr, 2020
使用扩散 - GAN 提高无监督自动语音识别的敌对训练方法。将各种强度的实例噪声注入生成器的输出和来自预训练音素语言模型的未标记参考文本,使用时间步骤相关的判别器将它们分开,并将梯度反向传播更新生成器,实验表明该增强策略能有效地提高语音识别词错误率。
Mar, 2023
本文提出了一种基于生成对抗网络的方法,通过在像素空间中学习一种转换方法,将源域图像适应为与目标域相同的样子,以解决渲染图像训练模型泛化性不强的问题。该方法不仅可以生成逼真的样本,而且在许多无监督域适应场景中均优于现有技术,并证明了适应过程对于训练期间未被观察到的物体类别的泛化性。
Dec, 2016