Jun, 2024

声学特征融合用于平衡多方面发音评估

TL;DR本文提出了两种声学特征混合策略,线性和非线性插值与批次平均特征相结合,以解决非母语学习者语音数据稀缺和得分标签不平衡的问题。通过将发音准确性作为声学特征,我们改进了设计以适应发音评估,同时结合细粒度的错误率特征,通过将语音识别结果与原始答案音素进行比较,直接提供发音错误的提示。声学特征的有效混合显著提高了 speechocean762 数据集上的整体评分性能,详细分析突显了我们预测未见扭曲的潜力。