Feb, 2024

自监督声学词嵌入的逐层分析:基于语音情感识别的研究

TL;DR研究验证了自我监督语音模型的有效性,但是在各种任务中最佳利用其表示仍然具有挑战性。本研究深入研究了声学词嵌入(AWEs),这是从连续表示中得出的固定长度特征,以探索它们在特定任务中的优势。通过在两个不同的语料库 IEMOCAP 和 ESD 上进行比较实验和层次准确性分析,我们探讨了 AWEs 和原始自我监督表示之间的差异,以及适当地使用 AWEs 与词嵌入相结合所取得的高竞争性 SER 准确性。