改进和分析用于 ASR 的神经说话人嵌入

Jan, 2023

改进和分析用于 ASR 的神经说话人嵌入

Improving And Analyzing Neural Speaker Embeddings for ASR

Christoph Lüscher, Jingjing Xu, Mohammad Zeineldeen, Ralf Schlüter, Hermann Ney

TL;DR本文研究了将神经说话者嵌入用于一个 ASR 系统，并通过基于 Conformer 的混合 HMM ASR 系统，在使用加权简单加法（Weighted-Simple-Add）集成方法时，展示了改进的嵌入提取流程，通过比较和分析不同的说话者嵌入来获得声学模型的改进，最终将最佳的 Conformer-based 混合 ASR 系统与说话者嵌入结合起来，获得了 9.0％的 WER 并在 Hub5'00 和 Hub5'01 上进行训练。

Abstract

neural speaker embeddings encode the speaker's speech characteristics through a DNN model and are prevalent for speaker verification tasks. However, few studies have investigated the usage of neural speaker embeddings

neural speaker embeddings asr conformer acoustic model wer improvement

发现论文，激发创造

改进训练配方用于一个稳健的基于 Conformer 的混合模型

本文探讨了多种说话人自适应训练的方法，提出了加权简单加法这一方法，该方法可以将权重说话人信息向量添加到自我注意模块的输入中，通过在 Switchboard 300h 数据集上的实验，证明了该方法的有效性，并在先前的工作基础上提出了一种新颖的训练配方，成功地降低了模型参数数量，并在 Switchboard 300h Hub5'00 数据集上取得了 11% 的相对错误率改进。

Jun, 2022

说话人识别的统一超球嵌入

通过增加训练和测试数据的方式，寻找嵌入空间维度的最优值，使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性，在不增加额外数据或使用更深和更复杂的模型的情况下，实验结果表明：（i）重复和随机时间翻转可以将预测误差降低高达 18%。（ii）较低维度嵌入更适合进行验证。（iii）使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。

Jul, 2018

Deep Speaker: 一种端到端的神经说话人嵌入系统

Deep Speaker 是一种神经说话人嵌入系统，可以将话语映射到一个超球上，在此球上，通过余弦相似度来度量说话人的相似性。该系统通过采用 ResCNN 和 GRU 架构提取声学特征，然后通过平均池化生成话语级别的说话人嵌入，并使用基于余弦相似度的三元组损失进行训练。实验表明，Deep Speaker 优于基于 DNN 的 i 矢量基线，在三个不同数据集上表现出色，还表明适应普通话训练的模型可以提高对英语说话人的识别精度。

May, 2017

使用说话人表示和自监督上下文嵌入进行口吃检测

本研究通过使用预先训练的深度学习模型提取的语音嵌入，探索了使用 ECAPA-TDNN 和 Wav2Vec2.0 模型进行口吃检测任务的音频表示。相对于仅在有限 SEP-28k 数据集上训练的标准口吃检测系统，本研究在多个传统分类器上获得了 12.08％、28.71％、37.9％的相对改进并进一步证明结合两个嵌入和连接多个层的 Wav2Vec2.0 可进一步提高其性能。

Jun, 2023

利用结构化状态空间模型增强在线语音识别的构型

在线语音识别中，通过将结构化状态空间序列模型（S4）与卷积相结合，可以提高神经编码器的性能并实现更低的识别错误率。

Sep, 2023

英语会话语音识别的极限探讨

本论文通过改进优化器、使用说话者向量嵌入和替代的语音表示，以及采用概率比率方法补偿解码模型，成功降低了 LSTM 系统在 Switchboard-300 上相对识别误差 4%，并在 Hub5'00 的 SWB 和 CHM 部分报告了 5.9% 和 11.5% 的字误率，并在 Switchboard-300 上实现了新的最佳结果，同时探讨了 conformer 和更先进的自注意力语言模型及其对现有性能的贡献。

May, 2021

用卷积上下文来进行 ASR 的变压器

本文提出了用卷积学习输入表示替换变形器的正弦位置嵌入，并阐述其在提供长程关系方面的优势和优化特点，最终实现了在无额外语言模型文本下，librispeech 测试中 4.7％和 12.9％的字错率。

Apr, 2019

使用最先进的神经说话人嵌入进行零样本多说话人文本转语音

研究了使用多说话人建模中的神经发音人嵌入对零样本适应的影响，发现使用可学习字典编码的说话人嵌入，能够在说话人验证任务中提高等误差率，在未知说话人使用时提高零样本适应性，并提高端到端语音合成的说话人相似性和自然度。

Oct, 2019

基于 Conformer 的鲁棒自动语音识别模型

本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题，并在 CHiME-4 语料库的单声道 ASR 任务中经过测试，其使用 utterance-wise 归一化和说话人自适应的方式，相比经典的 wide residual 双向长短时记忆网络，减小了 18.3% 的模型大小，训练时间减少了 79.6％且相对误差率比 WRBN 低 8.4%。

Mar, 2022

使用 LSTM 进行说话者分离

本文介绍一种基于 d-vectors 的说话者辨识方法，将 LSTM-based 的 d-vector audio embeddings 与非参数聚类相结合，实现了最新的说话者辨识系统，与传统 i-vector 系统相比，取得了更好的结果。

Oct, 2017