重新考虑神经语音识别中的熵半环

Dec, 2023

重新考虑神经语音识别中的熵半环

Revisiting the Entropy Semiring for Neural Speech Recognition

Oscar Chang, Dongseong Hwang, Olivier Siohan

TL;DR在流媒体环境中，语音识别模型需要在完整音频流可用之前将语音的子序列映射为文本，但由于训练过程中很少有语音和文本之间的对齐信息可用，模型需要以完全自我监督的方式进行学习。本文通过熵半环重新考虑了神经语音识别模型，展示了如何通过对齐熵来通过正则化或蒸馏来监督模型。在实证上，我们观察到对齐蒸馏的添加可以提高已经经过优化的师生蒸馏模型的准确性和延迟，实现了在流媒体场景下 Librispeech 数据集上的最新性能。

Abstract

In streaming settings, speech recognition models have to map sub-sequences of speech to text before the full audio stream becomes available. However, since alignment information between speech and text is rarely

speech recognition models alignment information entropy semiring regularization distillation

发现论文，激发创造

SGEM: 通过顺序级别广义熵最小化实现自动语音识别的测试时间适应

该研究提出了一种新的测试时间适应（TTA）框架 SGEM，利用波束搜索和广义熵最小化以及负采样等无监督目标来适应模型，该框架在各种领域转移下取得了三种主流自动语音识别（ASR）模型的最先进性能。

Jun, 2023

流式端到端语音识别序列转导器的最小延迟训练

本文提出了一种新的训练方法，通过明确建模和减少序列变换器模型的延迟来达到最优的延迟和准确性均衡，实验结果表明，所提出的最小延迟训练方法将有助于将哈尔滨工业大学卡苏耶延迟从 220ms 降低到 27ms，并在误识率降低了 0.7% 的同时，优于传统的对齐限制训练和快速发射方法。

Nov, 2022

用于解耦合报到和运行阶段说话人识别模型的训练后嵌入对齐

使用轻量级神经网络将两个独立模型的嵌入式映射到共享的说话者嵌入空间，以实现非对称说话者识别系统，并在大规模数据集上训练的模型中，在共享的说话者得分空间中显著优于余弦打分。

Jan, 2024

自我监督语音模型的有效蒸馏在自动语音识别中的应用探究

本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏，用于自动语音识别。我们进行了综合研究，设计了一种简单有效的算法，将参数减少 17％，将推理速度翻倍，同时又能在功能上达到满意的性能降级。

Oct, 2022

一种用于并行语音合成的谱能距离

提出了一种基于能量距离的新学习方法，可以训练高度并行的语音模型，并达到隐式生成模型的最新成果，与 GAN-TTS 模型相结合可以提高人类评估者判断的平均意见分数。

Aug, 2020

针对端到端语音识别和理解优化语音和语言潜空间的对齐

本文提出引用对齐器和模态切换训练来更好地对齐语音和文本潜在空间，实验结果在 Librispeech ASR 任务和 SNIPS 槽填充任务上都表现出了显著的性能提升。

Oct, 2021

使用音素级模型进行非流畅语音的弱监督强制对齐

本文提出了一种基于加权有限状态转换的 CTC 模型对齐算法，通过对常见口吃现象的刻画，提高了自动语音对齐的准确性和鲁棒性。在 TIMIT 数据集和 UCLASS 数据集上的实验结果表明，该算法的召回率有了显著提高。

May, 2023

基于结构重排序的序列转导中的潜在对齐建模

该研究通过在神经 seq2seq 模型中建模 segment-to-segment 对齐，提高了模型的系统化泛化能力，并在语义解析和机器翻译等任务上得到了较好的表现。

Jun, 2021

通过采样优化语音识别的期望单词误差率

本文介绍了一种对语音识别声学模型进行最优化训练的方法，使用 Monte Carlo 抽样从传统 sMBR 训练的 lattice 中采样路径来优化期望 WER，并在 Google Home 的 2 通道查询识别任务上实验，并相对于经过良好调整的 sMBR 基线获得了 5％的相对 WER 改进。

Jun, 2017

使用非成对语音和文本的半监督序列到序列自动语音识别

本文提出了一种新的半监督训练方法，该方法结合了端到端的不可区分的 ASR->TTS 损失和 TTS->ASR 损失，利用未配对的语音和文本数据，相较于其他相关技术在 WSJ 和 Librispeech 语料库上的 WER 性能更好。

Apr, 2019