从原始音频学习去标识化韵律表征

ICMLJul, 2021

从原始音频学习去标识化韵律表征

Learning De-identified Representations of Prosody from Raw Audio

Jack Weston, Raphael Lenain, Udeepa Meepegama, Emil Fristed

TL;DR提出了一种自我对比无监督信号的方法，用于学习从原始音频中去识别的 prosody 表示，可以用于语音理解的新基准测试 DAMMP，检验了该方法所学到的非 timbral prosody 子组件，已达到部分去识别的效果。

Abstract

We propose a method for learning de-identified prosody representations from raw audio using a contrastive self-supervised signal. Whereas prior work has relied on conditioning models on bottlenecks, we introduce a set of inductive biases that exploit the natural structure of

prosody self-supervised learning speech representation de-identification information-theoretic

发现论文，激发创造

来自离散分离自监督表征的语音再合成

使用自监督离散表示来获取可控的语音合成的解耦表征，以及实现在轻量级语音编解码器中更好的语音质量。

Apr, 2021

无监督语音重构中解离韵律表示

本文讨论并提出一种名为 Prosody2Vec 的语音重构模型，能够从无标记的情感语音语料库中学习韵律信息表示，并能在情感语音识别和情感语音转换等任务中有效地实现对韵律特征的捕捉，同时与 HuBERT 表示相结合时表现优于最先进的方法。

Dec, 2022

使用基于对比学习预训练的机器 ID 声音表示进行异常声音检测

本文使用对比学习方法，针对每个机器 ID 而不是每个音频样本优化音频表示，使用自我监督 ID 分类器微调学习模型，增强了同一 ID 音频特征之间的关系，在 DCASE 2020 Challenge Task2 数据集上的实验表明，该方法在整体异常检测性能和稳定性方面胜过了使用对比学习或自我监督分类的最先进方法。

Apr, 2023

无监督口音领域自适应学习不变表示和风险最小化

本文探讨通过将语音表征映射到对应的高级语言信息以学习领域不变的语音表征，结果证明，学习到的 latents 不仅捕捉到每个音素的发音特征，而且提高了适应能力，在 accened 测试基准上大幅优于基准模型。

Oct, 2022

使用跨模态自监督进行解缠语音嵌入

本文旨在学习说话者身份的表示，利用自我监督学习目标，在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构，从而在大规模的 “野外” 对话者数据集上进行训练，并展示了其对于标准说话者识别性能的良好效果。

Feb, 2020

深度上下文化声学表示用于半监督语音识别

我们提出了一种新的半监督自动语音识别方法，利用表示学习从无标注音频数据中重建滤波器组特征，并使用得到的深度上下文化的声学表示训练基于 CTC 的端到端自动语音识别系统，实验表明我们的方法能够显著提高系统性能并大幅减少所需标注数据量。

Dec, 2019

BYOL-S: 通过启动自助学习的方式学习自监督语音表示

本研究使用自我监督学习与深度神经网络等方法，探索提取声音和语音特征的最优表征，提出了多种编码器架构，并探讨了不同的预训练数据集。最后，我们提出了一个新的训练框架，用于结合手工特征和数据驱动特征，得到一个混合音频表征。在 HEAR 毕业设计的听觉场景分类和时间戳检测任务中，我们的实验表明，使用混合模型和卷积变压器作为编码器在大多数任务中都具有更优越的性能。

Jun, 2022

自监督解缠结表示学习用于稳健目标语音提取

通过自监督解缠的表示学习方法，该论文提出了一种两阶段的方法，利用参考语音编码网络和全局信息解缠网络逐步解开说话者身份信息与其他无关因素的联系，从而有效地引导语音提取网络并降低说话者混淆的可能性。此外，引入自适应调制 Transformer 以确保混合信号的声学表示不受说话者嵌入的影响，提供自然且高效的指导。实验结果验证了该方法的有效性。

Dec, 2023

DeLoRes: 用于低资源音频表示学习的解耦潜空间模型

本文提出了 DeLoRes，一种新的通用音频表示学习方法，基于自监督学习的方法，利用少量数据和计算资源，通过受到失真影响但包含音频样本非冗余信息的嵌入学习，实现特征的泛化，并在九种不同的分类任务上得出具有竞争力的结果。

Mar, 2022

学习不变的语音表征

本论文探讨了如何利用无监督的声学特征来增强语音识别，其中，通过学习始终对某些变换和变形不变的音频信号表示，实现了对短小的语音样本的有效处理，从而极大地提升了元音分类的准确性并降低了样本复杂性。

Jun, 2014