注意力和自监督语音嵌入对非语义语音任务的影响

Aug, 2023

注意力和自监督语音嵌入对非语义语音任务的影响

Effect of Attention and Self-Supervised Speech Embeddings on Non-Semantic Speech Tasks

Payal Mohapatra, Akash Pandey, Yueyuan Sui, Qi Zhu

TL;DR人类情绪理解对于推动对话技术走向主流至关重要。我们视语音情绪理解为一项感知任务，这是一个更加现实的设置。通过在 ACM Multimedia 2023 计算跨语音信息挑战（ComParE）中利用其丰富的多语种演讲者数据集和 ' 情感共享 ' 多标签回归目标，我们展示了不同基础模型的训练方案对于超越语音识别等非语义语音任务（例如情绪理解）的效果产生重要影响，尤其是针对多语种演讲者、目标标签的可变性以及回归数据集中的固有不平衡性，我们的结果表明，基于自注意力的轻量级序列模型 HuBERT-Large 相较于报告的基准线有 4.6% 的改进。

Abstract

human emotion understanding is pivotal in making conversational technology mainstream. We view speech emotion understanding as a perception task which is a more realistic setting. With varying contexts (languages

human emotion understanding speech emotion understanding multilingual speakers emotion share track hubert-large

发现论文，激发创造

基于注意力增强的端到端多任务学习在语音情感预测中的应用

本文提出了一种增强的端到端框架，通过学习其他辅助任务和关注机制来获取更加稳健和更好地共享表示，以缓解传统系统中由于有限训练数据而导致的过拟合问题，提高语音情感识别性能。

Mar, 2019

自监督语音模型的探索：情感语料库研究

本研究通过定量分析情感语料库探索了一种流行的自我监督模型 ——wav2vec 2.0，主要证明了：1）wav2vec 2.0 似乎会丢弃不太有用于词汇识别的语用信息；2）对于情感识别，只使用中间层的表示与对多个层求平均后的表示效果相当，在某些情况下，只使用最后一层的表示效果最差；3）现有的自我监督模型可能不是利用非词汇特征的下游任务的最佳解决方案，为该领域未来的研究提供新的发现和理论基础。

Oct, 2022

利用自监督预训练的声学和语言特征进行连续语音情感识别

本文研究音频和文本的预训练提取特征方法，使用 wav2vec 和 camemBERT 模型进行连续情感识别任务，同时采用 SEWA 数据集，证明 wav2vec 和 BERT 预训练特征的联合使用在处理连续 SER 任务中表现非常合适。通过实验证明，新方法的 CCC 值达到 0.825，而传统的 MFCC 和 word2vec 仅为 0.592。

Nov, 2020

多语言不可见说话人情感识别的探索：在多任务学习中利用共注意线索

本研究关注于多语言语音情感识别中未见过的说话者，引入了 CAMuLeNet 这一新颖的架构，通过共同注意力融合和多任务学习解决了这一问题，并在多个基准数据集上对预训练的 Whisper、HuBERT、Wav2Vec2.0 和 WavLM 进行基于说话者排除的交叉验证，同时发布了一个针对印地语的新颖数据集 BhavVani。根据交叉验证策略，CAMuLeNet 在未见过的说话者上显示出平均约 8% 的改进。

Jun, 2024

野外情感语音识别中的跨模态转移

本篇研究提出一种基于面部表情的情感识别的无监督学习方法，通过跨模态蒸馏将面部表情标注传递到语音领域，用于语音情感识别，实现了在未标注音频数据下学习语音情感表示的目标。

Aug, 2018

基于讲话者注意力的语音情感识别

本文提出了一种基于自训练机制以及 Self Speaker Attention 机制的情感识别方法，该方法在 Att-HAC 和 IEMOCAP 上实现了最新的性能表现。

Apr, 2021

探究语音情感识别变形金刚在语言知识方面的应用

本文研究了使用 self-attention layer（transformers）预先训练的神经网络在情感识别中的表现，并发现这些模型成功利用语言信息来提高其 valence predictions，在测试他们时应包括对语言分析。

Apr, 2022

使用多跳注意力机制的语音情感识别

该论文提出了一种利用音频和文本信息的语音情感分类方法，使用双向 LSTM 和多跳注意力机制，在 IEMOCAP 数据集上，相对于现有技术，其在加权准确率上提高了 6.5% 的性能。

Apr, 2019

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

深度神经网络的无监督音频和语义训练模型

应用深度学习框架从文本特征中提取有意义的表示，研究了语义同步在人际交流和人机交互中的评估及其与声学特征之间的关联性。

Dec, 2023