使用 Wav2vec2 和 Whisper 进行演讲者和语言变更检测

Feb, 2023

使用 Wav2vec2 和 Whisper 进行演讲者和语言变更检测

Speaker and Language Change Detection using Wav2vec2 and Whisper

Tijn Berns, Nik Vaessen, David A. van Leeuwen

TL;DR通过向标签添加说话者（变化）或语言目标，我们研究了最近为自动语音识别预训练的 transformer 网络对检测语音中的说话者和语言变化的能力。对于 Wav2vec2 预训练网络，我们还研究了是否可以调节说话者变化符号的表示以捕获说话者身份特征。通过多个构建的数据集，我们展示了这些能力的实际应用，并测出了约 10％的说话者识别等误差率和几个百分点的语言检测误差率。

Abstract

We investigate recent transformer networks pre-trained for automatic speech recognition for their ability to detect speaker and language changes in speech. We do this by simply adding speaker (change) or language targets to the labels. For Wav2vec2 →

transformer networks automatic speech recognition speaker change language detection pre-trained networks

发现论文，激发创造

探索 wav2vec 2.0 在说话人验证和语言识别上的应用

本文提出了一种基于 self-supervised 的 Wav2vec 2.0 框架，可用于说话人验证和语言识别，通过多任务学习使用一个模型进行统一建模，并在相关数据集上取得了良好的成果。

Dec, 2020

使用 Wav2Vec 2.0 识别器进行深度 LSTM 口语检测

本文利用基于字符的 Wav2Vec2.0 模型进行了大规模口语文档中的术语检测任务，实验结果表明，使用基于深度 LSTM 网络的共享发音嵌入空间的 bootstrapping 方法将 DNN-HMM 混合 ASR 的传统发音词汇的知识转化到基于图形的 Wav2Vec 中，能够显著优于 DNN-HMM 混合 ASR 和音素识别器的组合系统。

Oct, 2022

wav2vec: 语音识别的无监督预训练

本研究通过对原始音频进行特征学习，探索无监督的语音识别预训练方法，在大量无标注音频数据上进行训练，结果表示所得到的特征对提高声学模型训练有积极意义。在 WSJ 测试中，仅使用少量已识别数据，我们的方法成功将 WER 从传统的 log-mel filterbank 上降低了最多 36％，最终的 WER 为 2.43％，使用的标注数据量较 Deep Speech 2 少两个数量级。

Apr, 2019

利用 wav2vec 2.0 进行 L2 口语英语的熟练度评估

本研究通过研究两个小数据集，其中一个是公开的，探讨使用 wav2vec 2.0 对英语口语能力的整体和各方面进行评估的可行性，相对于基于 ASR 和手动转录训练的 BERT 基准系统，发现此方法有很大的提升。

Oct, 2022

wav2vec 2.0：自监督学习语音表示的框架

本研究首次证明了从语音音频中学习强大的表征，然后在经过转录的语音上进行微调可以胜过最好的半监督方法，而且概念上更简单，示范了在有限标注数据情况下实现语音识别的可行性。

Jun, 2020

使用 Wav2vec 2.0 嵌入进行语音情感识别

本文提出一种基于迁移学习的语音情感识别方法，将从预训练的 wav2vec 2.0 模型中提取的特征使用简单的神经网络模型进行建模，并使用可训练的权重从多层模型中组合输出，在 IEMOCAP 和 RAVDESS 两个情感数据库上的评价表明，在情感识别性能上优于现有文献中的结果。

Apr, 2021

无监督语音识别

本文介绍了 wav2vec-U 这种方法，可以通过无监督学习的方式训练语音识别模型，许多语种如 Kyrgyz、Swahili 和 Tatar 等成为了可能。

May, 2021

使用大型数据集探索单语音频 Transformer 在捷克语自动语音识别中的能力

本文介绍了在大数据集上通过预训练机器学习模型和微调等方法，利用无标签语音数据和有标签语音数据对 Wav2Vec 2.0 进行 ASR 系统的训练及评估，并取得成功的实验结果。

Jun, 2022

一种基于 Transformer 的有效语境模型与时间门池化的说话人辨识

该研究介绍了一种基于 Transformer 的上下文模型应用于演讲者识别的有效的端到端模型，探索了参数与性能之间的关系，并提出了具有强大学习能力的汇聚方法 Temporal Gate Pooling，通过在 VoxCeleb1 的演讲者识别任务上进行评估，取得了 85.9% 的准确率，与具有 317.7M 参数的 wav2vec2 相比具有可比较的精度。

Aug, 2023

简单而有效的零样本跨语言音素识别

本文通过使用发音特征将多种训练语言的音素映射到目标语言中，对多语言预训练的 wav2vec 2.0 模型进行微调，以在没有标记数据的情况下提高其对未见过的语言的识别能力，并在实验中取得了较优效果。

Sep, 2021