Jan, 2020

说话人感知语音转换器

TL;DR本研究利用 Speech-Transformer (SST) 研究 E2E 模型的说话人感知训练,提出了一个 Speaker-Aware Speech-Transformer (SAST) 模型,在静态的说话人知识块基础上生成加权的说话人嵌入向量,成功地将训练说话人的因素规范化,相较于独立于某个特定训练说话人的 baseline 模型,SAST 取得了相对 6.5% 的 CER 减少。