RASR2: 通用序列到序列语音识别的 RWTH ASR 工具包

May, 2023

RASR2: 通用序列到序列语音识别的 RWTH ASR 工具包

RASR2: The RWTH ASR Toolkit for Generic Sequence-to-sequence Speech Recognition

Wei Zhou, Eugen Beck, Simon Berger, Ralf Schlüter, Hermann Ney

TL;DR本文提出了一种名为 RASR2 的研究性通用 S2S 解码器，它支持多种 S2S 模型、语言模型、标签单元 / 拓扑和神经网络架构，并提供了对不同搜索模式和设置的丰富支持，因此可以有效地对开放词汇和闭合词汇场景进行解码。作者通过在 Switchboard 和 Librispeech 语料库上进行了广泛的实验证明了 RASR2 的效果，并在线公开了其源代码。

Abstract

Modern public asr tools usually provide rich support for training various sequence-to-sequence (S2S) models, but rather simple support for decoding open-vocabulary scenarios only. For →

asr tools s2s models open-vocabulary closed-vocabulary rasr2

发现论文，激发创造

使用单一端到端模型的多语言语音识别

本文介绍了一种基于序列到序列的正常语音识别模型，它适用于 9 种不同的印度语言，并通过训练语言特定的字形集合，将这些语言联合起来训练模型以提高其性能。

Nov, 2017

对等学习中的序列到序列模型：一个实用应用

探索使用基于 LSTM 单元的序列到序列 (Seq2Seq) 模型在点对点学习环境下的自动语音识别 (ASR) 任务的适用性，通过两种不同的点对点学习方法模拟代理学习过程，并使用两个不同的 ASR 数据集评估其性能。研究发现在集中式训练环境中，使用缩小版 Deep Speech 2 模型的单个模型在 UserLibri 数据集上训练时，识别误差率 (Word Error Rate, WER) 为 84%，在 LJ Speech 数据集上训练时为 38%。然而，通过 55 个代理进行点对点学习，并使用 UserLibri 数据集和 LJ Speech 数据集进行训练时，WER 在 UserLibri 数据集上的范围为 87% 至 92%，在 LJ Speech 数据集上的范围为 52% 至 56%。结果表明，在分散式训练环境中使用 Seq2Seq 模型是可行的，尽管识别误差率 (WER) 稍高于集中式训练方法。

May, 2024

揭示序列到序列模型在序列标注和结构解析中的真正潜力

本篇论文系统研究了利用包含解码技术的序列到序列模型（Sequence-to-Sequence，简称 S2S）开展的语音识别、命名实体识别、组成性和依赖分析等任务。作者设计和评估了三种不同的线性化模式及相对应的约束解码模式，进行了实验比较，结果表明，使用本文方法的 S2S 模型优于其他采用外部资源的 S2S 方法，并得到了优异的性能。

Feb, 2023

端到端多模态语音识别

探讨了如何应用视觉通道，以及 Connectionist Temporal Classification (CTC) 和 sequence-to-sequence (S2S) 的方法来提高自动语音识别 (ASR) 的鲁棒性，并比较了两种方法在干净和嘈杂的数据上的效果。

Apr, 2018

基于序列到序列模型的最先进语音识别技术

本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段，将 Listen Attend Spell（LAS）模型应用于语音搜索任务中，从而将错误率从 9.2% 显著降至 5.6%。在听写任务中，该模型的错误率为 4.1%，略优于传统系统的 5.0%。

Dec, 2017

基于 Transformer 序列到序列模型的自动语音识别纠错

本文介绍了一种用于自动语音识别（ASR）的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构，将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略，并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中，我们的方法在词错误率上表现优异，尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型，并接近于使用 Transformer-XL 神经语言模型重新评分的性能。

Oct, 2019

多语言序列到序列语音识别：架构，转移学习和语言建模

本文提出使用多语言数据建立先前模型，结合迁移学习的方法，通过在 10 个 BABEL 语言中训练 seq2seq 模型来改进音频识别，同时在解码时加入循环神经网络语言模型 (RNNLM) 来进一步提高模型的表现，实验结果表明，将先前的多语言模型应用于 4 种其他 BABEL 语言可以有效提高识别的准确度，并且加入 RNNLM 辅助也可以带来显著的性能提升。

Oct, 2018

一种非自回归生成框架用于端到端同步任意语音翻译

我们提出了一种新颖的非自回归生成框架用于同时语音翻译 (NAST-S2X)，它将语音到文本和语音到语音任务整合到统一的端到端框架中。实验结果表明，NAST-S2X 在语音到文本和语音到语音任务中优于现有模型，在不到 3 秒的延迟内实现了高质量的同时口译，并在离线生成中提供了 28 倍的解码加速。

Jun, 2024

ASR 是你所需要的：用于唇读的跨模态蒸馏

本研究旨在使用自动语音识别模型进行视觉语音识别的强化学习，通过跨媒体蒸馏方法将 Connectionist Temporal Classification（CTC）与逐帧交叉熵损失相结合，以无标注的视频数据来提高效果和速度，并在 LRS2 和 LRS3 数据集上实现了最先进的结果。

Nov, 2019

序列转序列模型中更好的解码和语言模型集成

该研究分析了一个基于注意力机制的序列到序列语音识别系统，提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案，并在没有语言模型的情况下，其词错误率为 10.6％，与 trigram 语言模型一起达到了 6.7％的词错误率。

Dec, 2016