跨说话人编码网络用于多说话者语音识别

Jan, 2024

跨说话人编码网络用于多说话者语音识别

Cross-Speaker Encoding Network for Multi-Talker Speech Recognition

Jiawen Kang, Lingwei Meng, Mingyu Cui, Haohan Guo, Xixin Wu...

TL;DR这项工作提出了一个跨说话人编码（Cross-Speaker Encoding，CSE）网络，将单输入多输出（SIMO）模型的局限性通过集成串行输出训练（SOT）的基于注意力的编码器 - 解码器架构的单输入单输出（SISO）模型来解决，首次尝试将 SIMO 和 SISO 整合进多说话人语音识别中，实验结果表明 CSE-SOT 模型在 LibrispeechMix 数据集上比 SOT 模型的词错误率（WER）平均降低 10％，在高重叠语音上降低 16％。

Abstract

End-to-end multi-talker speech recognition has garnered great interest as an effective approach to directly transcribe overlapped speech from multiple speakers. Current methods typically adopt either 1) single-input multiple-output (SIMO) models with a branched encoder, or 2) single-in

multi-talker speech recognition cross-speaker encoding (cse) network simo models siso models word error rate (wer)

发现论文，激发创造

混合编码器用于语音分离和识别

该论文提出了一种基于中间地带的方法来处理多说话者语音识别，该方法既利用了情感识别模块类似于模块化方法的显式语音分离技术，又将混合语音信息直接纳入 ASR 模块，以减轻语音分离器所产生的错误传播，并且通过结合个体说话者信息的层来交换跨说话者的上下文信息。

Jun, 2023

DSE-TTS：用于跨语言文本转语音的双说话人嵌入

提出了一种新的双说话人嵌入式 TTS 框架，结合了一种嵌入式用于学习语言发音风格，另一个用于模拟目标说话人的音色，以解决跨语言 TTS 中的噪音干扰和说话人相似度问题。实验证明，这种框架在跨语言合成方面表现优异，尤其在语音自然度方面比最先进的方法要好。

Jun, 2023

多说话人语音识别的纯端到端系统

本文提出了一种新的序列到序列的框架，即多说话者语音识别，通过端到端的方式将源分离和语音识别功能统一处理，同时提出了一种新的目标函数来提高隐藏向量间的对比度，实验结果显示该模型能够直接学习从语音混合到多个标签序列的映射，与之前的显式分离和识别模块的端对端工作相比，取得了 83.1% 的相对改进。

May, 2018

ESPnet-SE++：面向鲁棒语音识别、翻译和理解的语音增强

本文介绍了将语音分离和增强（SSE）纳入 ESpnet 工具包的最新进展，包括最新的语音增强模型及其评估，并设计了新界面将语音增强应用于前端任务包括自动语音识别（ASR）、语音翻译（ST）和口语理解（SLU），实验表明其在多通道场景下是一种有前途的研究方向及可以用作未来研究的基准语料库。

Jul, 2022

使用令牌级串行化输出训练的流式多说话人 ASR

本文提出了一种基于 token 级别序列化输出训练（t-SOT）的新型流式多说话人自动语音识别框架，该框架在 LibriSpeechMix 和 LibriCSS 数据集中显示出比以前的结果更高的单词错误率的优势。

Feb, 2022

交叉注意力端到端语音识别技术在双方对话中的应用

本文提出一种利用端到端方法，基于对话流转信息学习两个不同说话者交互的语音识别模型。该模型采用讲话人特定的交叉注意机制来帮助识别长时间的对话，并在 Switchboard 对话语音库上进行了评估，表现出优异的性能。

Jul, 2019

采用置换不变训练的单通道多说话人语音识别

本文探讨了如何通过扩展置换不变训练（PIT）方法并引入前端特征分离模块（最小均方误差标准）和后端识别模块（最小交叉熵标准），解决在多说话人混合语音识别中的问题，并且在 AMI 数据集（包括二人和三人的混音语音）的实验中，相对于同类不同说话人的语音识别系统，识别率提高了 45% 和 25%。

Jul, 2017

MultiSpeech: 基于 Transformer 的多说话人文本转语音

本文提出了一种名为 MultiSpeech 的高质量多说话人变压器语音合成系统，通过几个特殊设计的组件 / 技术改善了文本到语音的对齐，并在多个数据集上展示了其效果。

Jun, 2020

ERNIE-SAT: 跨语言多说话人文本转语音的语音和文本联合预训练

在跨语言场景中进行了语音表示学习的探索，提出了语音文本联合预训练框架，通过学习重构不同语言的输入来进行预训练，取得了在多语言场景下优于基于说话人嵌入的多说话人 TTS 方法的成果。

Nov, 2022

使用令牌级别的说话人嵌入进行分配流式讲话者自动语音识别

提出了一种基于 token 级别序列化输出训练 (t-SOT) 的流式说话者归属性自动语音识别 (SA-ASR) 模型，该模型可以在多人同时说话时实现低延迟的 “谁说了什么” 的识别，并提出了一种基于编码 - 解码的说话者嵌入提取器，可以从非重叠语音和重叠语音中为每个识别的令牌估计说话者表示。

Mar, 2022