Aug, 2023

一种基于 Transformer 的有效语境模型与时间门池化的说话人辨识

TL;DR该研究介绍了一种基于 Transformer 的上下文模型应用于演讲者识别的有效的端到端模型,探索了参数与性能之间的关系,并提出了具有强大学习能力的汇聚方法 Temporal Gate Pooling,通过在 VoxCeleb1 的演讲者识别任务上进行评估,取得了 85.9% 的准确率,与具有 317.7M 参数的 wav2vec2 相比具有可比较的精度。