Spatial HuBERT：基于多通道音频的自监督单讲话者空间语音表征学习

Oct, 2023

Spatial HuBERT：基于多通道音频的自监督单讲话者空间语音表征学习

Spatial HuBERT: Self-supervised Spatial Speech Representation Learning for a Single Talker from Multi-channel Audio

Antoni Dimitriadis, Siqi Pan, Vidhyasaharan Sethu, Beena Ahmed

TL;DRSpatial HuBERT 是一种自我监督的语音表示模型，通过使用多通道音频输入学习单个说话者在潜在嘈杂环境中的声学和空间信息，可以在多种空间下游任务中优于最先进的单通道语音表示，在混响和嘈杂环境中表现出色。

Abstract

self-supervised learning has been used to leverage unlabelled data, improving accuracy and generalisation of speech systems through the training of representation models. While many recent works have sought to pr

self-supervised learning speech systems spatial information multi-channel audio reverberant environments

发现论文，激发创造

HuBERT：自监督语音表示学习通过隐藏单元的掩码预测

本研究提出了一个利用聚类和预测损失的自监督学习方法 HuBERT，来解决语音表示学习中存在的多个输入单元、无法在预训练阶段建立输入单元词典以及不明显的分割问题，该方法对于掩盖区域的预测损失、高质量的聚类步骤具有一定的鲁棒性，在多个基准测试集上的表现不低于当前最先进的 wav2vec 2.0 性能。

Jun, 2021

Cocktail HuBERT: 用于混合和单一来源语音的通用自监督预训练

本文提出了一种名为 Cocktail HuBERT 的自监督学习框架，通过掩蔽伪源分离目标来泛化到混合语音领域，从而在多说话人 ASR 上实现了 69% 的 WER 降低和 31% 的分离误差率降低，并且在 SUPERB 中的单说话人和多说话人任务上表现优异。

Mar, 2023

u-HuBERT：统一的混合模态语音预训练与零样本迁移到未标记模态

本文提出了 u-HuBERT，它是一个能够利用模态失效的自监督预训练框架，可以在保持优秀性能的同时，实现单模型处理多模态的语音输入。

Jul, 2022

快速 - HuBERT：用于无监督语音表示学习的高效训练框架

近年来，自我监督学习方法在语音处理任务中取得了显著进展。本文提出了一种名为 Fast-HuBERT 的高效优化方法，通过分析 HuBERT 预训练的计算成本并引入一系列效率优化，实现了与原始实现相比，无性能降低、在 Librispeech 960h 基准上训练时间为 1.1 天、速度提升 5.2 倍的效果。此外，我们在 Fast-HuBERT 中探索了两种技术，并展示了与之前工作相一致的改进效果。

Sep, 2023

HuBERTopic: 通过主题模型自我监督提升 HuBERT 的语义表示

我们提出了一种新方法来丰富 HuBERT 的语义表示，通过将主题模型应用于伪标签以为每个话语生成主题标签，并使用主题标签作为教师添加辅助的主题分类任务，以无监督的方式融入额外的全局语义信息。实验证明，我们的方法在大多数任务中实现了与基准方法相当或更好的性能，包括自动语音识别和 8 个超级任务中的 5 个任务。此外，我们发现主题标签包含关于话语的各种信息，如性别、演讲者和主题，凸显了我们方法在捕捉多方面语义细微差别方面的有效性。

Oct, 2023

基于掩码多模态聚类预测的音视频语音表征学习

AV-HuBERT 是自监督学习框架，用于从视频、音频中学习音视双方言的表征，可用于口型阅读和语音识别任务。在 433 小时的公共数据集 LRS3 上，使用 AV-HuBERT 的自我训练，口型阅读错误率降低到 26.9％，使用相同的表征进行语音识别的性能提高了 40％相对减少至 1.3％。

Jan, 2022

通过数据增强、课程学习和多任务增强提高 DistilHuBERT 对未知噪声环境的鲁棒性

本研究提出了一种改进的 DistilHuBERT 模型，该模型引入了噪声和混响以及多任务学习的训练方法，能够有效提高在真实环境下的边缘语音应用中的鲁棒性。

Nov, 2022

Pac-HuBERT: 基于原始听觉聚类和隐藏单元 BERT 的自监督音乐源分离

本研究提出了一种基于自监督学习和 HuBERT speech representation 模型的音乐源分离框架，结合 Demucs V2 和 Res-U-Net 解码器，使用自由音乐库（FMA）数据集进行预训练，实现了比原始 Demucs V2 和 Res-U-Net 模型更好的源 - 失真比（SDR）表现，并可以在少量监督数据的情况下提升性能。

Apr, 2023

Spatial LibriSpeech：一个用于空间音频学习的增强数据集

我们提出了 Spatial LibriSpeech，这是一个具有超过 650 小时 19 通道音频、一阶 ambiSonics 和可选分心噪声的空间音频数据集。Spatial LibriSpeech 旨在用于机器学习模型训练，并包含源位置、说话方向、房间声学和几何标签。我们通过增加 LibriSpeech 样本与 8k + 合成房间中的 200k + 模拟声学条件来生成 Spatial LibriSpeech。为了证明我们数据集的实用性，我们对四个空间音频任务进行模型训练，结果 3D 源定位中的中值绝对误差为 6.60°、距离为 0.43m、T30 为 90.66ms，DRR 估计为 2.74dB。我们展示了相同模型在广泛使用的评估数据集上具有良好的泛化能力，例如在 TUT 声事件 2018 的 3D 源定位中的中值绝对误差为 12.43°，ACE 挑战中 T30 估计为 157.32ms。

Aug, 2023

MelHuBERT：基于 Mel 频谱的精简 HuBERT

该研究论文介绍了一种用于语音表示学习的自监督模型 HuBERT 以及其简化版本 MelHuBERT，可以使用 Mel 频谱作为输入训练单个 GPU 上的高效模型。研究还围绕损失函数、多阶段训练和数据流选项进行了探讨。

Nov, 2022