Aug, 2023

注意力和自监督语音嵌入对非语义语音任务的影响

TL;DR人类情绪理解对于推动对话技术走向主流至关重要。我们视语音情绪理解为一项感知任务,这是一个更加现实的设置。通过在 ACM Multimedia 2023 计算跨语音信息挑战(ComParE)中利用其丰富的多语种演讲者数据集和 ' 情感共享 ' 多标签回归目标,我们展示了不同基础模型的训练方案对于超越语音识别等非语义语音任务(例如情绪理解)的效果产生重要影响,尤其是针对多语种演讲者、目标标签的可变性以及回归数据集中的固有不平衡性,我们的结果表明,基于自注意力的轻量级序列模型 HuBERT-Large 相较于报告的基准线有 4.6% 的改进。