推进声学到单词 CTC 模型

Mar, 2018

Advancing Acoustic-to-Word CTC Model

Jinyu Li, Guoli Ye, Amit Das, Rui Zhao, Yifan Gong

TL;DR本论文研究了基于 CTC 准则的声音到单词模型的问题，并提出采用混合 CTC 模型和混合单元 CTC 模型的解决方案，最终实现了在没有使用语言模型或复杂解码器的情况下取得比传统 CD-CTC 模型更好的结果。

Abstract

The acoustic-to-word model based on the connectionist temporal classification (CTC) criterion was shown as a natural end-to-end (E2E) model directly targeting words as output units. However, the word-based CTC mo

acoustic-to-word model connectionist temporal classification oov issue hybrid ctc model mixed-unit ctc model

发现论文，激发创造

基于情境适配器和自适应增强的 CTC 语音识别模型个性化研究

该研究提出了一种新的语音识别模型，使用动态增强和电话对齐网络来优化编码器和解码器，在编码器中引入关注稀有单词和超出词汇表以及解码器中使用子词预测结果，结果表明 F1 可以达到 60%。

Oct, 2022

神经语音识别：基于声学到词汇 LSTM 模型的大词汇量语音识别

使用 CTC 损失和双向 LSTM RNN 网络，基于整词的声学单位构建连续语音识别系统，无需传统上下文依赖的子词单元和语言模型。

Oct, 2016

基于预训练语言模型的知识迁移，提升基于 CTC 的语音识别

基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱，本文提出了两种知识转移方法，借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中，相对于不使用外部语言模型的基础模型，我们的方法将字符错误率降低了 16.1%。

Feb, 2022

基于 CTC 的声学模型的多语言训练和跨语言适应

研究了多种适应和规则化技术，并使用深度神经网络，调查了自适应性训练的潜力，并研究了退火珂朵莉的效果，得出结果表明使用 LHUC 进行适应可以改善全语言子母的 CTC 系统的性能，并且在有限数据上可以实现与 DNN/HMM 系统的竞争性性能。

Nov, 2017

CTC 声学模型的子词和交叉词单元

本文提出了一种新方法来为 CTC 基于语音识别系统创建单元集。该方法使用 Byte Pair Encoding 在给定的训练文本上学习任意大小的单元集，通过使用子词和多词跨度单元，与使用字符或单词作为单位相比，可以在单位集大小和可用训练数据之间寻找良好的平衡点。通过结合使用独立语言模型的译码方法，能够实现基于字形的 CTC 系统的最新成果。

Dec, 2017

层级条件端到端 ASR：CTC 和多粒度次词单元

本文提出了一种基于连接主义时间分类（CTC）的分层条件模型，通过在中间层应用辅助 CTC 损失，逐渐增加每个目标子单词序列的词汇量，并使每个级别的序列预测明确地以前一个级别的预测为条件，希望通过利用语言结构的层次结构有效地学习单词级表示，在 LibriSpeech-{100h，960h} 和 TEDLIUM2 上实验结果表明，与标准 CTC 模型和其他竞争模型相比，所提出的模型具有优越性能。

Oct, 2021

构建英语会话语音识别的具有竞争力的直接声学到单词模型

介绍了一个配方来训练一个 A2W 模型，以缩小与常规模型的差距，并呈现了一个联合单词 - 字符 A2W 模型，以提供富有意义的输出。

Dec, 2017

联合 CTC 损失和自监督预训练声学编码器的端到端口语理解

本研究通过利用自我监督的声学编码器，提取文本嵌入，结合联合 CTC 和 SLU 损失的方法，实现了语音理解任务的话语级 SLU 模型，并在 DSTC2 数据集上比 SOTA 对话行为分类模型提高 4％绝对值，在 SLURP 数据集上比 SOTA SLU 模型提高 1.3％绝对值。

May, 2023

具有门控卷积神经网络的基于字母的语音识别

本研究提出了一种基于 ConvNet 和 CTC（或 ASG）的字母语音模型，实现了与 WSJ 中最佳字母系统的匹配，并在 LibriSpeech 上展现了近乎最先进的表现。

Dec, 2017

多任务学习下的联合 CTC-Attention 基于端到端语音识别

本研究介绍了一种新的方法，使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛，从而减轻对齐问题。实验证明，与 CTC 和 attention-based encoder-decoder 基线相比，在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6％的相对 CER 改进。

Sep, 2016