通过置信度放宽增强 ASR 解码

AAAIDec, 2022

Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation

Tomer Wullach, Shlomo E. Chazan

TL;DR该论文提出了一种解码过程，改进了现有的基于 beam search 的自动语音识别系统中的缺陷，特别是针对最近提出的自监督学习（SSL）模型中高度自信的预测所带来的问题，并且不需要额外的训练以及模型参数，并且在低资源场景中实现了一致的改进。

Abstract

automatic speech recognition (ASR) systems frequently use a search-based decoding strategy aiming to find the best attainable transcript by considering multiple candidates. One prominent speech recognition decoding heuristic is →

automatic speech recognition self-supervised learning beam search decoding procedure fine-tuned asr models

发现论文，激发创造

通过层聚合增强语音识别解码

本文对几种语音识别模型进行了实验，发现使用顶层预测的逻辑可以阻碍光束搜索算法实现最佳结果；然后，进行了层分析，提出了一种汇聚前 M 层的预测方法，通过束搜索解码来展示方法的有效性，并在 Librispeech 测试集中实现了 WER 和 CER 分别减少高达 10% 和 22%。

Mar, 2022

基于注意力机制的序列到序列模型语音识别置信度估计

本文探讨如何使用语音识别器的置信度得分来评估转录质量，提出了一种名为信心估计模块（CEM）的轻量化且有效的方法来解决端到端模型的过度置信问题，并发现 CEM 能潜在地改善半监督学习等下游任务。

Oct, 2020

联合编码器 - 解码器自监督预训练用于 ASR

本文提出了一种新的自监督学习范式，利用解码器的威力提高语音识别下游任务的性能。HuBERT 框架用于计算编码器的传统掩蔽预测损失，同时在框架中引入了解码器和目标准备策略。最终，我们使用一个多任务 SSL 设置，其同时优化编码器和解码器损失，实现了 ASR 表现的 25% 相对改进。

Jun, 2022

如何通过波束搜索提高生成序列标注中的跨度级别置信度估计？

本文旨在提供一些关于如何估计生成序列标注模型的置信度的实证见解，特别是如何可靠地评估模型对每个标记的预测置信度，我们发现，简单地使用解码器的输出概率并不是实现良好校准置信度估计的最佳方法，而我们提出的通过顶部 - k 预测的统计数据的方法，在六个不同任务的公共数据集上得到了验证。

Dec, 2022

自监督语音识别模型中避免过度思考

本文介绍了一种应用于 ASR 任务的早期退出策略（EE），借此解决自我监督学习模型在大规模任务中存在的推理速度慢和网络反应过度的问题，并提出了两种新的策略来优化性能和速度之间的平衡。

Nov, 2022

流式混淆网络语音识别

本文提出了一种新型流式自动语音识别架构，可输出混淆网络并保持有限的延迟，以满足交互式应用的需要，其 1-best 结果与可比较的 RNN-T 系统相当，而更丰富的假设集允许进行第二遍重评分，以在 LibriSpeech 任务上实现 10-20％更低的字词误差率，同时在远场语音助手任务中优于强 RNN-T 基线。

Jun, 2023

自我监督表示在自动语音识别中的高效注入

我们提出了两种简单的方法，使用逐帧加法和交叉注意机制来高效地将自监督学习模型的表示纳入 ASR 架构，从而在训练期间避免使用自监督学习模型，加快了训练速度，并在 Librispeech 和 Tedlium 数据集上相较于基准模型实现了显著性能提升。

Apr, 2024

块同步束搜索流式 Transformer 自动语音识别

本文提出一种基于块处理编码器的流式 E2E Transformer ASR 的新型分块同步束搜索算法，并在多项实验中的表现均优于传统的在线方法，特别是在使用知识蒸馏技术时。

Jun, 2020

一种稳定有效的可训练贪婪解码学习策略

本文提出了一种灵活的新方法，利用一个小型的神经网络 actor 来观测和操纵先前训练的解码器的隐藏状态，以无需额外的计算成本获得几乎全部的 beam search 带来的好处。我们介绍了使用一个伪并行语料库来训练 actor 网络，它是以类似于 BLEU 的目标质量指标对基础模型的 beam search 输出排名而生成的。我们的方法受到了早期研究的启发，但不需要强化学习，并且可以可靠地在各种模型上训练。在三个平行语料库和三个架构上的实验表明，该方法可以使翻译质量和速度大大提高，超过每个基础系统。

Apr, 2018

基于多个输入假设和有约束的解码空间的强健 ASR 错误校正的 N-best T5 模型

本文提出了一种基于 N-best T5 模型和约束解码过程的语音识别自动纠错方法，通过从预训练语言模型中传递知识和获取 ASR 解码空间中更丰富的信息，该方法在 ASR 后处理中取得了更好的性能表现。

Mar, 2023