序列转序列模型中更好的解码和语言模型集成
本文提出使用多语言数据建立先前模型,结合迁移学习的方法,通过在 10 个 BABEL 语言中训练 seq2seq 模型来改进音频识别,同时在解码时加入循环神经网络语言模型 (RNNLM) 来进一步提高模型的表现,实验结果表明,将先前的多语言模型应用于 4 种其他 BABEL 语言可以有效提高识别的准确度,并且加入 RNNLM 辅助也可以带来显著的性能提升。
Oct, 2018
探索使用基于 LSTM 单元的序列到序列 (Seq2Seq) 模型在点对点学习环境下的自动语音识别 (ASR) 任务的适用性,通过两种不同的点对点学习方法模拟代理学习过程,并使用两个不同的 ASR 数据集评估其性能。研究发现在集中式训练环境中,使用缩小版 Deep Speech 2 模型的单个模型在 UserLibri 数据集上训练时,识别误差率 (Word Error Rate, WER) 为 84%,在 LJ Speech 数据集上训练时为 38%。然而,通过 55 个代理进行点对点学习,并使用 UserLibri 数据集和 LJ Speech 数据集进行训练时,WER 在 UserLibri 数据集上的范围为 87% 至 92%,在 LJ Speech 数据集上的范围为 52% 至 56%。结果表明,在分散式训练环境中使用 Seq2Seq 模型是可行的,尽管识别误差率 (WER) 稍高于集中式训练方法。
May, 2024
我们提出一种递归编码器 - 解码器深度神经网络架构,直接将一种语言中的语音转换为另一种语言中的文本,通过多任务训练序列到序列的语音翻译和识别模型通过共享编码器网络来提高性能。
Mar, 2017
本文表明,使用单个头注意力,基于 LSTM 的直接 seq2seq 语音识别模型可以在只有少量数据时(即使只有 300 小时数据),在 Switchboard-300 数据库上实现最先进的识别性能,并且数据增强和谨慎的正则化对于获得这种水平的性能非常重要,然而,更多的数据仍然是更有用的,并且通过使用各种正则化技术和一个相对简单但足够大的模型的组合可以在 Switchboard 和 CallHome 数据集上取得 4.7%和 7.8%的 WER 结果。
Jan, 2020
本文介绍了一种基于序列到序列的正常语音识别模型,它适用于 9 种不同的印度语言,并通过训练语言特定的字形集合,将这些语言联合起来训练模型以提高其性能。
Nov, 2017
本文介绍了一种用于自动语音识别(ASR)的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构,将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中,我们的方法在词错误率上表现优异,尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型,并接近于使用 Transformer-XL 神经语言模型重新评分的性能。
Oct, 2019
该研究介绍了一种基于全局序列评分学习的 Sequence-to-Sequence (seq2seq) 模型和波束搜索训练方案,通过避免局部训练的传统偏差问题,统一训练损失和测试时间使用,并保留 seq2seq 的有效训练方法。在单词排序、解析和机器翻译三个不同的序列到序列任务中,该系统优于基于注意力的 seq2seq 系统高度优化的系统和其他基准线。
Jun, 2016
本文介绍最近相结合的 seq2seq,深度神经网络和加强学习模型,考虑如何在决策制定的 RL 方法中利用序列到序列模型的长期记忆能力来解决复杂的问题,提出并探讨 RL 方法解决序列到序列模型领域常见的曝光偏差而且在训练与测试的指标上也不一致的两个问题,并提供了大多数 RL 模型的源代码以支持抽象文本摘要的复杂任务。
May, 2018
使用时间 - 深度可分离卷积块、卷积语言模型以及有效的 beam 搜索方法,相对于先前的序列到序列结果,在 LibriSpeech 测试集中语音识别效果提高了 22%。
Apr, 2019