TERA:基于自监督学习的 Transformer 编码器音频表示学习
本文针对预训练语音编码器中的表示空间进行了研究,并通过对比自监督学习构建正对,以实现对表示空间的改进,进而在低资源环境下提高了语音处理任务的收敛速度和表现。
Oct, 2022
提出一种称为 Masked Predictive Coding 的无监督预训练方法,可用于 Transformer-based 模型的无监督预训练,其应用于 HKUST 的实验表明,使用相同的训练数据,我们可以实现 CER 为 23.3%,超过最佳的端到端模型 0.2% 的绝对 CER。使用更多的预训练数据,我们可以进一步将 CER 降至 21.0%,相对 CER 基线降低 11.8%。
Oct, 2019
提出了一种基于 Transformer 的文本自编码器(T-TA),可以在不需要重复推理的情况下计算上下文语言表示。实验结果表明,在 CPU 环境下,T-TA 在 reranking 任务中比基于 BERT 的模型快六倍,在语义相似性任务中快十二倍,并在这些任务上表现出与 BERT 相当甚至更好的准确性。
Apr, 2020
我们提出了一个无监督适应框架,Self-TAught Recognizer (STAR),它利用无标签数据增强自动语音识别(ASR)系统在噪声和口音等多样的目标领域中的稳健性。STAR 基于基于 Transformer 相关架构和自回归解码的流行语音基础模型(例如 Whisper,Canary)进行开发。
May, 2024
这篇论文提出了一种名为 tts4pretrain 的自我监督预训练方法,该方法通过同时从语音和文本两个模态中学习表示,将比较学习的强大能力与从合成语音推导的语言 / 词汇表示相辅相成,有效学习未经转录的语音和未说出的文本,并通过额外的序列损失项在语音编码器中强制执行词汇学习,最终在自动语音识别任务中取得相对于 wav2vec2.0 基线模型 10%的误差率降低。
Aug, 2021
本文探讨了预训练语音模型在 E2E-ASR 中的潜在应用,发现在一些 ASR benchmark corpora 上,使用预训练模型能够超越当前最先进的识别性能。其中,HuBERT 模型表现尤为突出,实验代码和模型参数已开源。
Oct, 2021
本文比较了自监督表示学习算法 - 无量化学习和显式量化学习,发现使用显式量化的自监督学习算法以较高的准确性建立了数据词汇表,并在随后的 BERT 训练中学习了有效的表示方法,从而实现了训练量极小的语音识别系统。
Nov, 2019
本文提出了一种自监督的语音表示模型 Audio ALBERT,比已有模型使用更少的参数,在说话人识别和音素分类等下游任务中实现了竞争性的性能,并发现隐表示编码了更丰富的说话人和音素信息。
May, 2020
本文研究了使用 self-attention layer(transformers)预先训练的神经网络在情感识别中的表现,并发现这些模型成功利用语言信息来提高其 valence predictions,在测试他们时应包括对语言分析。
Apr, 2022
本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题,探索了自监督预训练和数据增强技术来解决此问题,实验表明自监督预训练可以提高模型性能,结合数据增强技术可以进一步提高模型性能。
Apr, 2022