使用策略学习来提高端到端的语音识别

Dec, 2017

使用策略学习来提高端到端的语音识别

Improving End-to-End Speech Recognition with Policy Learning

Yingbo Zhou, Caiming Xiong, Richard Socher

TL;DR本文介绍了如何在最大似然和策略梯度训练中联合训练来减少最大似然和语音识别性能指标之间的不匹配，并通过实验验证了其效果。

Abstract

connectionist temporal classification (CTC) is widely used for maximum likelihood learning in end-to-end speech recognition models. However, there is usually a disparity between the negative →

connectionist temporal classification end-to-end speech recognition maximum likelihood policy gradient performance metric

发现论文，激发创造

基于预训练语言模型的知识迁移，提升基于 CTC 的语音识别

基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱，本文提出了两种知识转移方法，借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中，相对于不使用外部语言模型的基础模型，我们的方法将字符错误率降低了 16.1%。

Feb, 2022

多任务学习下的联合 CTC-Attention 基于端到端语音识别

本研究介绍了一种新的方法，使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛，从而减轻对齐问题。实验证明，与 CTC 和 attention-based encoder-decoder 基线相比，在 WSJ 和 CHiME-4 任务中表现出 5.4-14.6％的相对 CER 改进。

Sep, 2016

CTC 基础语音识别中的中间损失正则化

本文提出了一种基于 CTC 目标的自动语音识别（ASR）的简单而高效的辅助损失函数，结合随机深度训练，应用于最近提出的 Conformer 网络，能够在没有语言模型的情况下实现 9.9％的单词错误率和 5.2％的字符错误率。

Feb, 2021

基于情境适配器和自适应增强的 CTC 语音识别模型个性化研究

该研究提出了一种新的语音识别模型，使用动态增强和电话对齐网络来优化编码器和解码器，在编码器中引入关注稀有单词和超出词汇表以及解码器中使用子词预测结果，结果表明 F1 可以达到 60%。

Oct, 2022

与目标对齐：利用通用即插即用框架优化 CTC 模型所需属性

提出了一种名为 $ extit {Align With Purpose}$ 的通用 Plug-and-Play 框架用于在 Automatic Speech Recognition 等领域中，通过 CTC 和附加的损失项优化各种功能，例如发射时间和单词错误率，以实现对齐的改善和性能提升。

Jul, 2023

用于德语端到端语音识别的大语料 CTC 分割

本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据，使用 CTC 和 attention Transformer 模型对德语语音识别进行训练，实现了 12.8％的识别错误率，超过了传统混合 DNN / HMM ASR 的 14.4％的基础水平。

Jul, 2020

基于 CTC 的语音识别的分层多任务学习

使用分层多任务学习进行基于 CTC 的语音识别，添加辅助任务可提高识别结果表现，不同的实验变量，低资源下标准多任务学习表现优异，最佳结果为采用分层多任务学习与预训练相结合，可将错误率降低 3.4% 绝对值。

Jul, 2018

多语言上下文适配器：提高低资源语言中自定义单词识别的效果

本文提出了一种监督损失的方法来平滑 Contextual Adapters 的训练，进一步探讨了多语言策略以提高有限的训练数据的性能，结果在一个低资源语言中检索未见过的自定义实体方面取得了 48％ F1 的提升。

Jul, 2023

用于自动语音识别的残差卷积 CTC 网络

本文提出了一种新颖的深度卷积神经网络架构 RCNN-CTC，其通过残差连接和时间分类损失函数，能够同时利用语音信号的时间和光谱结构，并提出了一种 CTC-based 系统组合方法，可以显著减少 WSJ 和腾讯 Chat 数据集上的语音识别误差率。

Feb, 2017

推进声学到单词 CTC 模型

本论文研究了基于 CTC 准则的声音到单词模型的问题，并提出采用混合 CTC 模型和混合单元 CTC 模型的解决方案，最终实现了在没有使用语言模型或复杂解码器的情况下取得比传统 CD-CTC 模型更好的结果。

Mar, 2018