基于 Transformer 编码器 - 编码器架构的口语检索

Nov, 2022

基于 Transformer 编码器 - 编码器架构的口语检索

Transformer-based encoder-encoder architecture for Spoken Term Detection

Jan Švec, Luboš Šmídl, Jan Lehečka

TL;DR本文提出了一种基于 Transformer 结构的语音词项检测方法，采用两个 BERT-like 编码器并进行了适当的修改，包括卷积和上采样层、注意力掩码、共享参数等，将假设和搜索术语投影到共享嵌入空间中，并使用校准点积计算假设的命中得分。在实验中，使用了 Wav2Vec 2.0 语音识别器，并在基于 USC Shoah 基金会视觉历史档案（MALACH）的英语和捷克 STD 数据集上，提出的系统优于基于深度 LSTM 的基线方法。

Abstract

The paper presents a method for spoken term detection based on the transformer architecture. We propose the encoder-encoder architecture employing two →

spoken term detection transformer architecture bert-like encoders attention masking wav2vec 2.0 speech recognizer

发现论文，激发创造

使用 Transformer 模型进行流式自动语音识别

通过使用自我注意力来模拟时间上下文信息，基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统，其可以在每个发音单词之后快速生成输出，因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模，同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上，我们的方案分别达到了 2.8% 和 7.2% 的词错误率，这是我们所知道的这个任务的最好的流式端到端 ASR 成果。

Jan, 2020

使用 Wav2Vec 2.0 识别器进行深度 LSTM 口语检测

本文利用基于字符的 Wav2Vec2.0 模型进行了大规模口语文档中的术语检测任务，实验结果表明，使用基于深度 LSTM 网络的共享发音嵌入空间的 bootstrapping 方法将 DNN-HMM 混合 ASR 的传统发音词汇的知识转化到基于图形的 Wav2Vec 中，能够显著优于 DNN-HMM 混合 ASR 和音素识别器的组合系统。

Oct, 2022

Transformer Transducer：基于 Transformer 编码器和 RNN-T Loss 的可流式语音识别模型

该论文提出了一种端到端的语音识别模型，使用 Transformer 编码器可用于流媒体语音识别系统；该模型在 LibriSpeech 数据集上进行了实验结果，结果表明限制 Transformer 层中自注意力左侧上下文对于流式解码是可行的，并展示了我们的全注意力模型在 LibriSpeech 基准测试上的准确性优于现有技术水平。

Feb, 2020

基于 Transformer 的端到端多说话人语音识别

本文研究使用 Transformer 模型替代基于循环神经网络的编码器 - 解码器模型，应用于多说话者语音识别和神经束形成器中的遮盖网络，得以有效处理混响信号，并加入外部去混响预处理方法进行对比试验。实验证明，在单通道和多通道任务下，基于 Transformer 的模型相对错误率降低达 40.9% 和 25.6%，在混响环境中的相对错误率降低达 41.5% 和 13.8%。

Feb, 2020

一种基于 Transformer 的有效语境模型与时间门池化的说话人辨识

该研究介绍了一种基于 Transformer 的上下文模型应用于演讲者识别的有效的端到端模型，探索了参数与性能之间的关系，并提出了具有强大学习能力的汇聚方法 Temporal Gate Pooling，通过在 VoxCeleb1 的演讲者识别任务上进行评估，取得了 85.9% 的准确率，与具有 317.7M 参数的 wav2vec2 相比具有可比较的精度。

Aug, 2023

交叉编织多模态编码器

本文提出了一种新的多模态语音和文本输入结构，使用多头交叉注意力结合预训练语音和文本编码器，并在目标问题上联合微调。所得的编码器可用于连续的令牌级别分类或对同时文本和语音进行话语级别的预测，并高效地捕获声学 - 韵律和词汇信息。

Apr, 2022

基于跨模态师生学习的预训练语义语音嵌入用于端到端口语理解

本文提出了一种新的训练方法，将预先训练的语境嵌入用于处理声学特征，并扩展了预先训练的语音识别系统的编码器，以构建端到端的口语理解系统，实验结果表明，该系统在三个基准测试中达到与流水线结构相当的性能，在没有使用任何训练数据的情况下，在两个基准测试中经过微调每类 10 个示例后优于流水线结构。

Jul, 2020

非常深的自注意力网络用于端到端语音识别

本研究采用 Transformer 结构，构建端到端的序列到序列模型，其表现超过了之前的端到端模型和传统混合系统，并且在 Switchboard 基准测试中超出了所有之前的端到端 ASR 方法。

Apr, 2019

使用未经配对的语音数据为端到端 ASR 模型预训练 Transformer 解码器

本文在多任务学习框架下，提出了一种使用新型无配对语音数据的预训练技术 Speech2C，通过声学单元 (pseudo codes) 派生自离线聚类模型，提出两个预训练任务来训练 “编码器 - 解码器” 网络，其一是像 HuBERT 模型一样通过掩蔽语言模型在编码器输出中预测 pseudo codes，其二则是让解码器自回归地重构 pseudo codes。此方法能够在 LibriSpeech 语料库上相对于没有解码器预训练的方法将字词错误率 (WER) 降低 19.2%，并且在 10h 和 100h 的微调子集上显著优于最先进的 wav2vec 2.0 和 HuBERT。

Mar, 2022

使用无监督预训练改进基于 Transformer 的语音识别

提出一种称为 Masked Predictive Coding 的无监督预训练方法，可用于 Transformer-based 模型的无监督预训练，其应用于 HKUST 的实验表明，使用相同的训练数据，我们可以实现 CER 为 23.3%，超过最佳的端到端模型 0.2% 的绝对 CER。使用更多的预训练数据，我们可以进一步将 CER 降至 21.0％，相对 CER 基线降低 11.8%。

Oct, 2019