无监督语音重构中解离韵律表示

Dec, 2022

Disentangling Prosody Representations with Unsupervised Speech Reconstruction

Leyuan Qu, Taihao Li, Cornelius Weber, Theresa Pekarek-Rosin, Fuji Ren...

TL;DR本文讨论并提出一种名为 Prosody2Vec 的语音重构模型，能够从无标记的情感语音语料库中学习韵律信息表示，并能在情感语音识别和情感语音转换等任务中有效地实现对韵律特征的捕捉，同时与 HuBERT 表示相结合时表现优于最先进的方法。

Abstract

Human speech can be characterized by different components, including semantic content, speaker identity and prosodic information. Significant progress has been made in disentangling representations for semantic c

prosody speech emotions asr speaker identity

发现论文，激发创造

无监督表示在语音情感识别中改善有监督学习

该研究提出了一种创新的方法，通过将自我监督特征提取与监督分类相结合，从较小的音频片段中识别情感，提高了人机交互的情感理解能力。

Sep, 2023

通过提炼韵律和语言情感表达的语音情感识别

EmoDistill 是一个新颖的语音情感识别（SER）框架，利用跨模态知识蒸馏在训练期间从语音中学习强大的语言和韵律情感表示。在推断过程中，我们的方法仅使用一系列语音信号执行单模态 SER，从而减少计算开销并避免运行时转录和韵律特征提取错误。在 IEMOCAP 基准上的实验证明，我们的方法以相当大的优势胜过其他单模态和多模态技术，并实现了 77.49％的非加权准确率和 78.91％的加权准确率。详细的消融研究展示了我们方法的每个组成部分的影响。

Sep, 2023

一个自监督离散语音单元的统一单次韵律和说话人转换系统

我们提出了一种统一的系统，可以实现一次性的声音转换，包括语调、节奏和说话人属性，并利用自监督离散语音单元作为语言表示来解决语音转换过程中自然度、完整性等问题，并通过实验证明其在自然度、可理解性、说话人迁移性和韵律迁移性方面优于以往的方法。

Nov, 2022

ContentVec: 通过分解说话人的语音表示来改进自监督语音表示

本文介绍了一种新的自监督学习方法，采用 HuBERT 框架并结合分离机制，能够在不丢失语音信息的前提下实现说话人分离，并在内容相关的下游任务中获得显著的性能提升。

Apr, 2022

自监督语音模型的探索：情感语料库研究

本研究通过定量分析情感语料库探索了一种流行的自我监督模型 ——wav2vec 2.0，主要证明了：1）wav2vec 2.0 似乎会丢弃不太有用于词汇识别的语用信息；2）对于情感识别，只使用中间层的表示与对多个层求平均后的表示效果相当，在某些情况下，只使用最后一层的表示效果最差；3）现有的自我监督模型可能不是利用非词汇特征的下游任务的最佳解决方案，为该领域未来的研究提供新的发现和理论基础。

Oct, 2022

利用自监督预训练的声学和语言特征进行连续语音情感识别

本文研究音频和文本的预训练提取特征方法，使用 wav2vec 和 camemBERT 模型进行连续情感识别任务，同时采用 SEWA 数据集，证明 wav2vec 和 BERT 预训练特征的联合使用在处理连续 SER 任务中表现非常合适。通过实验证明，新方法的 CCC 值达到 0.825，而传统的 MFCC 和 word2vec 仅为 0.592。

Nov, 2020

学习多语种表达性语音表示以进行无平行数据的韵律预测

本文提出一种语音到语音的情感保留翻译方法，利用多语言情感嵌入技术来捕捉情感信息，并在英语和法语语音信号中验证了该方法的有效性。

Jun, 2023

基于解缠自监督表征和神经听觉合成器的自然环境语音情感转换

本文提出了一种方法，该方法使用自监督网络对话语的词汇、说话人和情绪内容进行解缠，并随后使用 HiFiGAN 回声消除器将解缠表示重新合成为目标情感的语音信号。

Jun, 2023

朝向端到端无监督语音识别

介绍一种改进的 wav2vec-U 2.0 方法，通过更好的结构来消除语音处理的需要，并引入自监督目标来实现更好的准确度，从而在不同语言下提高了非监督性识别结果。

Apr, 2022

从原始音频学习去标识化韵律表征

提出了一种自我对比无监督信号的方法，用于学习从原始音频中去识别的 prosody 表示，可以用于语音理解的新基准测试 DAMMP，检验了该方法所学到的非 timbral prosody 子组件，已达到部分去识别的效果。

Jul, 2021