Jun, 2019

BERTphone: 适用于话语级别的说话人和语言识别的音素感知编码器表示

TL;DR介绍了 BERTphone,这是一种在大型语音语料库上训练的 Transformer 编码器,可输出具有音素感知上下文表示向量,可用于说话人和语音识别。Bertphone 在 speaker recognition 和 language recognition 任务中表现出类别最佳的效果。