Feb, 2023

使用 Wav2vec2 和 Whisper 进行演讲者和语言变更检测

TL;DR通过向标签添加说话者(变化)或语言目标,我们研究了最近为自动语音识别预训练的 transformer 网络对检测语音中的说话者和语言变化的能力。对于 Wav2vec2 预训练网络,我们还研究了是否可以调节说话者变化符号的表示以捕获说话者身份特征。通过多个构建的数据集,我们展示了这些能力的实际应用,并测出了约 10%的说话者识别等误差率和几个百分点的语言检测误差率。