无需转写的噪声和混响多说话人自动语音识别的语音分离模型微调

Jun, 2024

无需转写的噪声和混响多说话人自动语音识别的语音分离模型微调

Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition

PDF

William Ravenscroft, George Close, Stefan Goetze, Thomas Hain, Mohammad Soleymanpour...

TL;DR该论文提出了一种无需参考文本信息的联合训练方法，利用预训练的自动语音识别编码器的嵌入差异作为损失，通过改进的排列不变训练（PIT）方法 —— 引导式 PIT（GPIT），在不同度量指标上取得了 6.4% 的词错误率（WER）改善和感知度量指标（如短时客观清晰度）的提升。

Abstract

One solution to automatic speech recognition (ASR) of overlapping speakers is to separate speech and then perform ASR on the separated signals. Commonly, the →

automatic speech recognition overlapping speakers separator reference transcriptions embedding differences

发现论文，激发创造

无监督单通道重叠语音识别中的渐进联合建模

提出一种基于模块化结构、渐进式预训练、转移学习以及鉴别性训练标准的神经网络模型，相较于现有模型，该模型在解决无监督单通道重叠语音识别方面表现更为优秀，能够取得超过 30% 的远程词错误率相对改进。

Jul, 2017

使用置换不变训练技术识别多说话者语音

本文提出了一种新的技术，通过排列不变训练 (PIT) 来直接识别混合语音中的多个语音流，解决了标签置换和说话人追踪问题。

Mar, 2017

采用置换不变训练的单通道多说话人语音识别

本文探讨了如何通过扩展置换不变训练（PIT）方法并引入前端特征分离模块（最小均方误差标准）和后端识别模块（最小交叉熵标准），解决在多说话人混合语音识别中的问题，并且在 AMI 数据集（包括二人和三人的混音语音）的实验中，相对于同类不同说话人的语音识别系统，识别率提高了 45% 和 25%。

Jul, 2017

几乎无监督的文本转语音和自动语音识别

本文提出了一种基于 Transformer 模型的几乎无监督学习方法，结合 TTS 和 ASR 的双重特性，通过少量的配对数据和额外的未配对数据，实现了对语音和文本领域的语言建模，并在 LJSpeech 数据集上达到了 99.84% 的可懂单词率和 2.68 MOS 的 TTS 表现，以及 11.7% 的 ASR 错误率。

May, 2019

探索自监督学习表征中的语音分离与识别集成

深度学习在语音分离方面的应用及其对多说话人语音识别的整合进行了深入研究，并提出了一种通过复杂谱映射和自监督学习表示进行的训练策略，从而在噪声和混响环境下显著提升多说话人语音识别性能。

Jul, 2023

无预训练的端到端单声道多说话人 ASR 系统

本文提出了一种最先进的单声道多说话者端到端自动语音识别模型，通过利用单个注意力模块为每个分离的说话者和调度抽样进一步提高性能，实验表明该方法可以在分离重叠的语音和识别分离的流方面提高端到端模型的性能。

Nov, 2018

支持会议识别的连续语音分离的混合编码器

此研究通过引入混合编码器，将重叠的语音分离为无重叠的流，从而处理多说话人和动态重叠的自然会议环境中的自动语音识别，实验结果表明混合编码器具有最先进的性能并强调了 TF-GridNet 的强大分离能力。

Sep, 2023

面向单说者神经文本转语音的细粒度鲁棒性韵律转移

本文提出一种神经文本转语音系统，通过使用变分自动编码器并在音标级别上聚合韵律特征，实现了从一个说话者到另一个说话者的精细韵律转移，并且解决了参考信号文本缺失的问题。主要关键字为 “神经文本转语音系统”、“韵律转移”、“变分自动编码器”、“音素级时间戳” 和 “序列到序列”。

Jul, 2019

朝向无需发音模型的无监督语音识别

本研究采用不依赖音素词典的新方法，通过仅包含高频英语词汇的语料库，在没有配对语音和文字数据的情况下，实现了近 20% 的词错误率，并证明了基于联合语音到语音和文本到文本的标记填充技术，使得无监督语音识别系统的性能超过了直接分布匹配方法。

Jun, 2024

基于深度递归神经网络的话语级别不变置换训练的多说话者语音分离

本文提出了逐句级别的置换不变训练（uPIT）技术，利用循环神经网络实现了多说话人语音分离，无需事先了解信号时长、说话人数量、身份和性别，且模型具有很好的泛化性能，在实验中表现优异。

Mar, 2017