移动设备自监督音频表示学习

May, 2019

Self-supervised audio representation learning for mobile devices

Marco Tagliasacchi, Beat Gfeller, Félix de Chaumont Quitry, Dominik Roblek

TL;DR我们探索了可以在移动设备上部署的自监督模型来学习通用音频表示，具体而言，我们提出了利用频谱图域中的时间上下文的方法。一种方法估计从同一音频剪辑中随机提取的两个短音频片段之间的时间间隔。其他两种方法受 Word2Vec 的启发，旨在从过去和未来切片中重建时间频谱图切片，或者从当前切片重建周围切片的上下文。我们关注使用小型编码器体系结构的评估，这些体系结构可以在推理（在多个下游任务中重复使用共同学习的表示）和训练（与联合学习结合使用时捕获真实数据分布而不损害用户隐私）期间潜在运行于移动设备。我们评估了自我监督学习模型产生的嵌入质量，并表明它们可以被重新用于各种下游任务，甚至对一些任务的性能接近相似大小的全监督模型。

Abstract

We explore self-supervised models that can be potentially deployed on mobile devices to learn general purpose audio representations. Specifically, we propose methods that exploit the temporal context in the

self-supervised models mobile devices audio representations spectrogram domain federated learning

发现论文，激发创造

自监督语音表示学习：综述

本论文综述了自监督语音表示学习的方法及其与其他研究领域的联系，讨论了将学习到的表示推广到语音识别以外的应用的最新研究进展。

May, 2022

BYOL-S: 通过启动自助学习的方式学习自监督语音表示

本研究使用自我监督学习与深度神经网络等方法，探索提取声音和语音特征的最优表征，提出了多种编码器架构，并探讨了不同的预训练数据集。最后，我们提出了一个新的训练框架，用于结合手工特征和数据驱动特征，得到一个混合音频表征。在 HEAR 毕业设计的听觉场景分类和时间戳检测任务中，我们的实验表明，使用混合模型和卷积变压器作为编码器在大多数任务中都具有更优越的性能。

Jun, 2022

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021

时序自监督的音视频对比学习

本文提出了一种自我监督学习方法，用于学习视频的表示，结合了 RGB 帧和相关的音频，通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置，并提出了新的对比目标。

Feb, 2023

AV-data2vec：具有语境目标表示的自监督学习音视频语音表征

本文介绍了一个名为 AV-data2vec 的模型，该模型利用预测上下文表示来构建音频 - 视觉表示，可以结合音频和视频来提高语音识别性能，相比现有方法，在大多数情况下，AV-data2vec 的表现都更好。

Feb, 2023

通过联合视听自监督从原始音频中学习语音表示

该研究提出了一种通过结合音频自监督和视觉自监督来训练原始音频编码器生成说话者面部图像的自监督语音表示方法，从而为音频视觉语音的自监督学习提供了潜力。

Jul, 2020

使用跨模态自监督进行解缠语音嵌入

本文旨在学习说话者身份的表示，利用自我监督学习目标，在视频中通过面部和音频之间的自然跨模态同步来实现。通过构建一个共享低级特征且提供自然机制来明确区分语言内容和说话者身份的双流架构，从而在大规模的 “野外” 对话者数据集上进行训练，并展示了其对于标准说话者识别性能的良好效果。

Feb, 2020

自监督活动表示学习与增量数据：一项实证研究

研究利用自监督学习扩展传统监督模型，以应对移动感知环境中许多传感器持续产生的大量数据和标注数据不足的挑战，通过一个未标注的时间序列数据集来抽取特征并预测带有标签的数据，研究结果表明在四种公共数据集上对于不同类型的传感器和应用，选择不同大小及来源的未标注数据会对最终的分类预测性能产生影响。

May, 2023

利用自监督语音模型进行音素分割

应用迁移学习到音素分割任务中，在自监督预训练中学习的表示对任务的效用得到证明。通过在 Transformer 风格编码器中增加有策略的卷积，操作预训练中学到的特征。在 TIMIT 和 Buckeye 语料库上训练和测试了该模型，分别在监督和非监督设置下达到了以前的最佳性能。在代码审查和尝试复现过去的分割结果中观察到，有必要明确广泛使用的评估指标的定义和实现。通过划分两种不同的评估方案并描述它们的细微差别来解决了这种不确定性。

Nov, 2022

视频中音视频对象的自监督学习

本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型，并通过注意力定位和分组声源，光流聚合信息等方式提高了模型的准确度。实验表明，本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务，同时，使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。

Aug, 2020