将自监督语音模型与基于视觉语音模型的伪词级目标整合

Feb, 2024

将自监督语音模型与基于视觉语音模型的伪词级目标整合

Integrating Self-supervised Speech Model with Pseudo Word-level Targets from Visually-grounded Speech Model

Hung-Chieh Fang, Nai-Xuan Ye, Yi-Jen Shih, Puyuan Peng, Hsuan-Fu Wang...

TL;DR我们提出了 Pseudo-Word HuBERT （PW-HuBERT）框架，该框架将伪词级目标集成到训练过程中，这些目标是从视觉引导的语音模型中获取的，明显消除了对语音 - 文本配对数据的需求，在四个口语理解基准测试中，我们的模型在捕捉语义信息方面表现出了优越性。

Abstract

Recent advances in self-supervised speech models have shown significant improvement in many downstream tasks. However, these models predominantly centered on frame-level training objectives, which can fall short

self-supervised speech models frame-level training objectives spoken language understanding pw-hubert semantic information

发现论文，激发创造

HuBERTopic: 通过主题模型自我监督提升 HuBERT 的语义表示

我们提出了一种新方法来丰富 HuBERT 的语义表示，通过将主题模型应用于伪标签以为每个话语生成主题标签，并使用主题标签作为教师添加辅助的主题分类任务，以无监督的方式融入额外的全局语义信息。实验证明，我们的方法在大多数任务中实现了与基准方法相当或更好的性能，包括自动语音识别和 8 个超级任务中的 5 个任务。此外，我们发现主题标签包含关于话语的各种信息，如性别、演讲者和主题，凸显了我们方法在捕捉多方面语义细微差别方面的有效性。

Oct, 2023

基于视觉反馈的自监督语音模型中的词语发现

本文提出了一种可视化感知的口语术语探测方法，通过对自注意力头的训练与分析发现，在自然图像与口语字幕关联的模型中具有强大的单词分割和聚类能力，并在 Buckeye 单词分割和 ZeroSpeech 口语术语探测任务上超过了所有已发表的现有方法。

Mar, 2022

WaBERT：用于口语理解和语音到 BERT 对齐的低资源端到端模型

本文提出了一种新颖的 Wave BERT（WaBERT）端到端模型，将语音模型和语言模型相结合，以用于口语理解任务，提高了语音特定信息和语言知识在短时间和低资源训练过程中的整合，从而在 SLUE SA 任务的开发数据集上将召回得分提高了 1.15％，F1 得分提高了 0.82％，此外还修改了序列连续整合和放电（CIF）机制，以实现语音和文本模态之间的单调对齐。

Apr, 2022

自监督语音和语言模型预训练的半监督口语理解

本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别（E2E ASR）和自监督语言模型（如 BERT）进行微调的通用语义理解框架，该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题，如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明，该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美，具有良好的环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

Oct, 2020

u-HuBERT：统一的混合模态语音预训练与零样本迁移到未标记模态

本文提出了 u-HuBERT，它是一个能够利用模态失效的自监督预训练框架，可以在保持优秀性能的同时，实现单模型处理多模态的语音输入。

Jul, 2022

语音翻译和识别的统一语音文本预训练

本文描述了一种使用编码器 - 解码器建模框架来联合预训练语音和文本用于语音翻译和识别的方法，其中包括四个自监督和有监督的子任务以进行跨模态学习，其贡献在于将文本语料库中的语言信息整合到语音预训练中。

Apr, 2022

HuBERT：自监督语音表示学习通过隐藏单元的掩码预测

本研究提出了一个利用聚类和预测损失的自监督学习方法 HuBERT，来解决语音表示学习中存在的多个输入单元、无法在预训练阶段建立输入单元词典以及不明显的分割问题，该方法对于掩盖区域的预测损失、高质量的聚类步骤具有一定的鲁棒性，在多个基准测试集上的表现不低于当前最先进的 wav2vec 2.0 性能。

Jun, 2021

快速 - HuBERT：用于无监督语音表示学习的高效训练框架

近年来，自我监督学习方法在语音处理任务中取得了显著进展。本文提出了一种名为 Fast-HuBERT 的高效优化方法，通过分析 HuBERT 预训练的计算成本并引入一系列效率优化，实现了与原始实现相比，无性能降低、在 Librispeech 960h 基准上训练时间为 1.1 天、速度提升 5.2 倍的效果。此外，我们在 Fast-HuBERT 中探索了两种技术，并展示了与之前工作相一致的改进效果。

Sep, 2023

无监督自动语音识别桥接语音和文本预训练模型

该研究提出了一种简单高效的无监督语音到语义预训练模型，使用无监督自动语音识别作为连接器，实现了不同任务的语音语言理解，其中包括最近热门的口语问答任务，并在 NMSQA 基准测试中达到了最新的最优结果。

Nov, 2022

Cocktail HuBERT: 用于混合和单一来源语音的通用自监督预训练

本文提出了一种名为 Cocktail HuBERT 的自监督学习框架，通过掩蔽伪源分离目标来泛化到混合语音领域，从而在多说话人 ASR 上实现了 69% 的 WER 降低和 31% 的分离误差率降低，并且在 SUPERB 中的单说话人和多说话人任务上表现优异。

Mar, 2023