中间预测偏置增强未见词识别

Jun, 2024

InterBiasing: Boost Unseen Word Recognition through Biasing Intermediate Predictions

Yu Nakagome, Michael Hentschel

TL;DR基于自条件 CTC 的无适应参数方法可以通过替换中间 CTC 预测和传递纠正标签来提高对特定术语的识别准确性，实验证明该方法成功提高了未知单词的 F1 得分。

Abstract

Despite recent advances in end-to-end speech recognition methods, their output is biased to the training data's vocabulary, resulting in inaccurate recognition of unknown terms or proper nouns. To improve the recognition accuracy for a given set of such terms, we propose an adaptation

end-to-end speech recognition adaptation parameter-free approach self-conditioned ctc recognition accuracy f1 score

发现论文，激发创造

具上下文的端到端自动语音识别及中间偏置损失

提出了一种在编码器中使用显式偏置损失作为辅助任务的方法，以更好地将文本令牌或音频帧与预期目标对齐，并通过使用 RNN-transducer 驱动的联合解码来进一步降低无偏差的单词错误率（U-WER），从而实现更强大的网络。

Jun, 2024

基于情境适配器和自适应增强的 CTC 语音识别模型个性化研究

该研究提出了一种新的语音识别模型，使用动态增强和电话对齐网络来优化编码器和解码器，在编码器中引入关注稀有单词和超出词汇表以及解码器中使用子词预测结果，结果表明 F1 可以达到 60%。

Oct, 2022

优化中间结果提升 CTC 推导效果

本文提出了一种使用搜索的中间结果和多次条件的改进 CTC 推断方法，通过提出新的条件方法，如搜索中间结果和多次通过条件，使得 CTC 推断中的条件能力更强，相对于原本的自我条件的 CTC，在 LibriSpeech 数据集上测试表现有明显提高。

Apr, 2022

基于预训练语言模型的知识迁移，提升基于 CTC 的语音识别

基于 CTC 的自动语音识别模型一直比基于处理单元的编码 - 解码模型弱，本文提出了两种知识转移方法，借助预训练的 BERT 和 GPT2 来提高 CTC-based 模型的性能。在实验中，相对于不使用外部语言模型的基础模型，我们的方法将字符错误率降低了 16.1%。

Feb, 2022

基于转录器的流式语音识别中的自适应上下文偏置

提出了一个基于上下文感知的变形器转录方法的自适应上下文偏置方法，通过使用有偏的编码器和预测器嵌入来执行流媒体预测，动态地开关偏差列表，以适应个性化和常见情况，实验证明相对于基线，它可以在常见情况下减少 WER 和 CER 达到 6.7％和 20.7％，在个性化情况下对性能影响极小，同时保持快速的推理管道。

Jun, 2023

基于条件独立假设的 CTC 语音识别方法的中间预测结果条件化松弛

本文提出了一种方法来放宽 CTC-based 自动语音识别 (ASR) 模型的条件独立性假设，通过在中间层中添加辅助的 CTC loss，使预测更准确，减少了相对词错误率超过 20%。

Apr, 2021

CTC 和转录器 ASR 模型的快速上下文偏见和基于 CTC 的词识别器

通过 CTC-based Word Spotter 实现快速的上下文偏置识别，加速上下文偏置识别的同时提高了 F-score 和 WER，方法已经在 NVIDIA NeMo toolkit 中提供。

Jun, 2024

InterAug: CTC-based ASR 中增强噪声中间预测

本论文提出了 InterAug: 一种使用增强的中间表示进行条件化的基于 CTC 的 ASR 的新训练方法。所提出的方法充分利用了自身条件付 CTC 的调节框架，通过在中间预测结果的基础上进行调节来训练鲁棒模型，从而实现了迭代式精炼。在使用模拟删除、插入和替换误差的增强进行的实验中，验证了训练模型对每种误差都具有强韧性的性能，提高了强自我条件付 CTC 基线的语音识别性能。

Apr, 2022

用于在线端到端语音识别系统的改进训练

提供了一种利用师生学习技术将离线的端到端语音识别模型的知识传递到在线端到端模型中的初始化策略，用以提高在线语音识别的准确性，并结合课程学习和标签平滑实现了更好的效果。在 Microsoft Cortana 的个人助手任务中，相比随机初始化基线系统，通过所提出的方法，可以使错误率相对下降了 19%。

Nov, 2017

CB-Conformer：面向有偏差词识别的上下文偏置 Conformer

本文提出了 CB-Conformer 方法，将 Contextual Biasing Module 和自适应语言模型引入到 vanilla Conformer 中，用于改进偏见词识别。同时，作者还构建并公开了一个基于 WenetSpeech 的普通话偏见词数据集。实验证明，相比于基准 Conformer，我们的方法使字符错误率减少了 15.34％，偏见词召回率增加了 14.13％，偏见词 F1 分数提高了 6.80％。

Apr, 2023