Nov, 2023

R-Spin: 高效的说话人和噪声不变表示学习与声学片段

TL;DR该论文介绍了 Robust Spin(R-Spin),一种用于演讲者和噪声不变的语音表征的数据高效自监督微调框架,通过学习具有演讲者不变聚类(Spin)的离散声学单元。R-Spin 通过学习预测声学片段来解决 Spin 的问题并增强内容表征。在严重扭曲的语音情景中,与之前的最先进方法相比,R-Spin 在计算资源上减少了 12 倍,同时表现更好。该论文提供了详细的分析,显示离散单元对语音编码器训练和在多样的声学环境中提高鲁棒性的贡献。