使用跨模态自监督进行解缠语音嵌入

Feb, 2020

使用跨模态自监督进行解缠语音嵌入

Disentangled Speech Embeddings using Cross-modal Self-supervision

Arsha Nagrani, Joon Son Chung, Samuel Albanie, Andrew Zisserman

TL;DR本文旨在学习说话者身份的表示，利用自我监督学习目标，在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构，从而在大规模的 “野外” 对话者数据集上进行训练，并展示了其对于标准说话者识别性能的良好效果。

Abstract

The objective of this paper is to learn representations of speaker identity without access to manually annotated data. To do so, we develop a self-supervised learning objective that exploits the natural cross-mod

speaker identity self-supervised learning audio-visual dataset two-stream architecture speaker recognition

发现论文，激发创造

自我监督解开说话人确认中的声音和内容

该研究提出了一种能同时模拟语音中的说话人特征和内容可变性的解缠结构框架，并通过使用三个高斯推理层实现，其中每个层由可学习的转换模型组成，能够提取出独特的语音组成成分。通过在 VoxCeleb 和 SITW 数据集上进行实验证实了该框架的有效性，其表现为等价错误率和最小 DCF 分别降低了 9.56％和 8.24％，而不需要额外的模型训练或数据，因此可以在实际应用中容易使用。

Oct, 2023

自监督解缠结表示学习用于稳健目标语音提取

通过自监督解缠的表示学习方法，该论文提出了一种两阶段的方法，利用参考语音编码网络和全局信息解缠网络逐步解开说话者身份信息与其他无关因素的联系，从而有效地引导语音提取网络并降低说话者混淆的可能性。此外，引入自适应调制 Transformer 以确保混合信号的声学表示不受说话者嵌入的影响，提供自然且高效的指导。实验结果验证了该方法的有效性。

Dec, 2023

ContentVec: 通过分解说话人的语音表示来改进自监督语音表示

本文介绍了一种新的自监督学习方法，采用 HuBERT 框架并结合分离机制，能够在不丢失语音信息的前提下实现说话人分离，并在内容相关的下游任务中获得显著的性能提升。

Apr, 2022

通过联合视听自监督从原始音频中学习语音表示

该研究提出了一种通过结合音频自监督和视觉自监督来训练原始音频编码器生成说话者面部图像的自监督语音表示方法，从而为音频视觉语音的自监督学习提供了潜力。

Jul, 2020

野外情感语音识别中的跨模态转移

本篇研究提出一种基于面部表情的情感识别的无监督学习方法，通过跨模态蒸馏将面部表情标注传递到语音领域，用于语音情感识别，实现了在未标注音频数据下学习语音情感表示的目标。

Aug, 2018

自监督学习用于音视频发言人分离

提出自监督的音视频同步学习方法，通过引入动态三元组损失和多项式损失函数来解决说话人分离问题，结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率，并且介绍了一个新的大规模中文音视频语料库。

Feb, 2020

视频中音视频对象的自监督学习

本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型，并通过注意力定位和分组声源，光流聚合信息等方式提高了模型的准确度。实验表明，本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务，同时，使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。

Aug, 2020

VisualVoice: 跨模态一致性的音视频语音分离

提出一种基于面部出现和声音特征对语音进行分离的方法，可对五种基准数据集进行音视频语音分离和增强，而且具有较好的泛化性能。

Jan, 2021

视觉自我监督是否提高情感识别的语音表征学习？

本研究探究了面部重建的视觉自监督方法辅助音频表示学习，提出了适用于语音表示学习的仅音频的自监督方法，比较了多任务的视听自监督与单一方式的自监督方法，发现视听自监督对于学习在噪声环境下更具有鲁棒性的特征更有益。同时，本研究发现自监督学习可以胜过全监督学习并防止过拟合，通过情感识别、自然语言识别等测试表明该方法成功提高了语音特征学习的效果。

May, 2020

语音和文本嵌入空间的无监督交叉模态对齐

该研究提出了一种无监督的跨模态对齐框架，通过对抗训练和优化过程来实现语音和文本的嵌入空间对齐，从而帮助开发对低资源语言进行语音识别和语音到文本翻译的自动化系统，并且在分类和翻译任务上的表现与监督的方法相媲美。

May, 2018