Apr, 2024

使用变长软池化方法从语音表示中去除说话人信息

TL;DR通过利用语音的结构性质,采用神经网络预测边界从而实现可变长度池化,以去除语音表示中的说话人信息。通过使用时间拉伸和音高变换的数据增强方法,该模型训练时被评估为包含内容信息但独立于说话人信息。