Jun, 2024

自动语音评估的优化:W-RankSim 正则化和混合特征融合策略

TL;DR自动语音评估(ASA)通过最近的研究中使用自监督特征(SSL)取得了显著进展。然而,在 ASA 中存在一个关键挑战,即数据的不平衡分布,特别在英语测试数据集中表现明显。为了解决这个挑战,我们将 ASA 视为一个序列分类任务,引入了加权向量排序相似度(W-RankSim)作为一种新的正则化技术。W-RankSim 鼓励输出层中加权向量更靠近类似类别,这意味着具有相似标签的特征向量在收敛到相应的加权向量时逐渐靠近彼此。广泛的实验评估确认了我们方法在提高 ASA 的序列分类性能方面的有效性。此外,我们提出了一个混合模型,结合了 SSL 和手工制作的特征,展示了手工制作特征如何增强 ASA 系统的性能。