利用声学特性引导音频的情感表示

Oct, 2023

利用声学特性引导音频的情感表示

Prompting Audios Using Acoustic Properties For Emotion Representation

Hira Dhamyal, Benjamin Elizalde, Soham Deshmukh, Huaming Wang, Bhiksha Raj...

TL;DR通过使用自然语言描述和基于声学特性的提示来更好地表示情绪的表达，我们提出了一种方法来自动生成这些提示并训练模型从音频和提示的组合中更好地学习情绪表示。使用声调、强度、说话速度和发音速度等与情绪相关的声学特性自动生成 ' 声学提示 '，通过对比学习目标将语音映射到相应的声学提示。我们在情绪音频检索和语音情绪识别上评估了我们的模型。结果表明，声学提示显著改善了模型在 EAR 中的性能，特别是在各种 Precision@K 指标上。在 Ravdess 数据集上，我们观察到 SER 的相对准确率提高了 3.8%。

Abstract

emotions lie on a continuum, but current models treat emotions as a finite valued discrete variable. This representation does not capture the diversity in the expression of emotion. To better represent

emotions natural language descriptions audio prompts acoustic prompts

发现论文，激发创造

利用自然语言提示控制语音合成中的情感

我们提出了一种通过由情感丰富的文本衍生出的嵌入来作为提示信息的系统，通过在基于 Transformer 的架构内多次集成发言者和提示信息的联合表示。我们的方法在合并情感语音和文本数据集上进行训练，并在每次训练迭代中变化提示信息，以增加模型的泛化能力。客观和主观评估结果表明，该条件合成系统能够准确地将提示中的情感转移到语音中。同时，保持了发言者身份的精确可追踪性以及整体的高话语质量和可理解性。

Jun, 2024

呼叫中心对话中语音连续情绪识别的声学和语言表征

本研究旨在自动检索实际呼叫中心对话中的满意度和挫折情绪，并侧重于持续追踪客户满意度以改善客户服务的工业应用。使用预训练的语音表示作为迁移学习形式，对 AlloSat 语料库进行了探索。实验结果确认了使用预训练特征可获得的性能大幅提升，并发现语言内容在满意度预测中起着明显的主导作用，并且对未知数据的泛化能力更强。此外，融合声学和语言模态的优势并不明显。该研究还探讨了性能变异性的问题，并试图从不同的视角估计此变异性：权重初始化、置信区间和注释主观性。对语言内容进行了深入分析，研究了能够解释语言模态在此任务中高贡献的可解释因素。

Oct, 2023

语音情感分析中的预训练模型表示及其对噪声的鲁棒性

研究了预训练模型表示在情感语音识别中的应用，探讨了情感维度的表示方式，发现情感的激活度和支配力主要依赖于声学信息，而情感的价值主要依赖于词汇信息。使用多模态融合表示生成了最先进的情感识别，改进了情感估计中的准确度，发现词汇表示比声学表示更具有鲁棒性，并证明多模态模型知识蒸馏有助于提高基于声音的模型的噪声抗干扰能力。

Mar, 2023

语音情感：探究模型表达、多任务学习和知识蒸馏

本研究探讨利用预训练的声学模型，将词汇信息融合到声学语音信号中，以改善情感估计，特别是情感维度中的愉悦度估计，并且发现预训练的模型嵌入融合可比标准声学特征基线（Mel 滤波器的能量）产生更好的效果，且经测试可以推广到其他数据集上。

Jul, 2022

使用深度神经网络增强电影情感体验预测：音频和语言的重要性

本文研究使用深度神经网络模型准确预测电影观众观看电影时所体验到的人类情感，其中包括来自 RGB 视频帧的视觉提示，涵盖声音、语音和音乐的听觉组件，以及包含演员对话的语言元素。

Jun, 2023

言语声学环境与情感识别关系的实证解释

本研究探究了基于注意力机制的分布式方法在语音情感识别中的应用，提出了通过将手机和单词映射到注意向量的交叉语料分析实验方法来寻找声学环境和情感之间的关系，以期将心理语言学理论研究与计算建模结合起来。

Jun, 2023

情绪刺激：通过心理学为大型语言模型提升增强

大语言模型通过 EmotionPrompt 在情绪智能方面进行性能提升，取得了显著的成果，有助于人类与语言模型的跨学科知识交互。

Jul, 2023

利用语音和文本的多模态语音情感识别

本文提出了一种深度双重循环编码器模型，利用语音和文本数据进行机器情感识别，该模型表现更优，实验结果显示，当将该模型应用于 IEMOCAP 数据集时，在将数据分配到四个情感类别（愤怒，高兴，悲伤和中性）方面，准确率在 68.8％至 71.8％之间。

Oct, 2018

关于基于提示条件的语音合成的语言模型的实证研究

研究报告通过对自动回归 (AR) 和非自动回归 (NAR) 语音语言模型的实证研究，为提示设计和内容语义单元提供了深入洞察。分析表明，异构和非平稳的提示对音频质量有害，与之前发现提醒较长始终会产生更好的合成的结论形成对比。此外，我们发现除了提示外，合成音频的说话者风格还受到内容的影响。我们进一步展示了语义单元携带丰富的声学信息，如音高、节奏、音量和语音强调，这些信息可能从内容泄露到合成音频中。

Mar, 2024

利用自监督预训练的声学和语言特征进行连续语音情感识别

本文研究音频和文本的预训练提取特征方法，使用 wav2vec 和 camemBERT 模型进行连续情感识别任务，同时采用 SEWA 数据集，证明 wav2vec 和 BERT 预训练特征的联合使用在处理连续 SER 任务中表现非常合适。通过实验证明，新方法的 CCC 值达到 0.825，而传统的 MFCC 和 word2vec 仅为 0.592。

Nov, 2020