自我偏置的自监督学习用于 ASR

Nov, 2022

Biased Self-supervised learning for ASR

Florian L. Kreyssig, Yangyang Shi, Jinxi Guo, Leda Sari, Abdelrahman Mohamed...

TL;DR本文提出了通过微调模型来引导自监督方法学习特定任务的方法，并提出了 MPPT 的变体，可以用于低存储占用的流式模型。这些方法在 Librispeech 语料库上进行的自动语音识别实验中取得了显著的性能提高。

Abstract

self-supervised learning via masked prediction pre-training (MPPT) has shown impressive performance on a range of speech-processing tasks. This paper proposes a method to bias →

self-supervised learning masked prediction pre-training automatic speech recognition librispeech corpus streaming models

发现论文，激发创造

Transformer 基于语音识别的无监督预训练的进一步研究

本文通过进一步研究 Masked Predictive Coding 的三个重要方面：预训练数据的发言风格，对流式模型的扩展和如何更好地将预训练阶段的知识转移，实验证明，在下游识别任务中，预训练数据与匹配的发言风格更有用，使用 APC 和 MPC 的统一培训目标在 HKUST 上训练的流式模型上提供了 8.46％的相对错误率降低，目标数据适应和逐层判别式培训的组合有助于 MPC 的知识转移，在 AISHELL 上相对基线实现了 3.99％的错误率降低。

May, 2020

基于监督引导的编码本，用于语音预训练中的遮蔽预测

本论文提出了两种监督引导的码本生成方法，分别是使用混合 ASR 系统解码并生成音素级别对齐（命名为 PBERT）或者使用从端到端 CTC 模型中提取的受监督语音特征进行聚类（命名为 CTC 聚类），以提高自动语音识别性能和预训练效率。实验结果表明，我们的方法在各种 SSL 和自训练基线中具有显著的优越性，最高 WER 相对降低了 17.0％。我们的预训练模型在非 ASR 语音任务中也表现出良好的可迁移性。

Jun, 2022

Train No Evil: 面向任务导向的有选择掩码预训练

本文提出了一种三阶段的预训练模型，通过加入任务引导的预训练阶段和选择性掩蔽来学习特定领域和任务模式，实验结果表明，该模型在情感分析任务中可以达到与更少计算成本相当甚至更好的性能。

Apr, 2020

使用自监督预训练和数据增强增强的直接语音翻译

本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题，探索了自监督预训练和数据增强技术来解决此问题，实验表明自监督预训练可以提高模型性能，结合数据增强技术可以进一步提高模型性能。

Apr, 2022

使用选择性屏蔽作为预训练和微调之间的桥梁

该研究提出了一种使用任务特定掩码的方法，通过修改预训练的 BERT 模型来适应下游任务。研究结果表明，这种选择性掩码策略优于随机掩码，具有较好的效果。

Nov, 2022

联合掩码 CPC 和 CTC 训练用于自动语音识别

这篇论文介绍了一种利用自监督学习方法，通过单阶段训练自动语音识别模型，利用标记数据和非标记数据来训练模型，实现了对下游任务性能的直接优化，并在 Librispeech 100-hour 数据集上实现了类似于 wav2vec ~2.0 的词错误率，最后提出解决对比任务是计算 CTC 损失的正则化的假设。

Oct, 2020

论掩码预训练和边缘似然

本文研究了带有累积评分函数的遮蔽预训练模型，证明该方法优化模型边际似然，从而取得了预训练的成功效果，并且推荐用类似方法来训练贝叶斯模型，同时还探讨了在大型语言模型中使用遮蔽预训练的主要学习原则。

Jun, 2023

多视图自监督方法在音乐标记中的实验比较

在音乐领域应用自监督学习，通过研究和比较新的自监督方法，证明对比学习相对于其他自监督预训练方法在有限数据下游任务中始终能够取得更好的性能。

Apr, 2024

PT-Tuning：通过提示词符调优来弥合时间序列掩码重构与预测之间的差距

本论文针对时间序列遮蔽重构和预测之间的差距，提出了一种任务目标统一和适应任务难度的方法并且通过引入 PT-Tuning 范式进一步减小了差距，实验证明该方法在实际数据集上具有卓越的性能。

Nov, 2023

多任务自监督预训练用于音乐分类

本文研究应用自监督学习和多任务学习方法预训练音乐编码器，探索编码器结构、损失权重和自监督任务选择对下游音乐分类任务的影响。研究发现，使用多种音乐特定的自监督任务，结合合理的损失权重平衡，可以提高和推广到下游任务。

Feb, 2021