May, 2024

对等学习中的序列到序列模型:一个实用应用

TL;DR探索使用基于 LSTM 单元的序列到序列 (Seq2Seq) 模型在点对点学习环境下的自动语音识别 (ASR) 任务的适用性,通过两种不同的点对点学习方法模拟代理学习过程,并使用两个不同的 ASR 数据集评估其性能。研究发现在集中式训练环境中,使用缩小版 Deep Speech 2 模型的单个模型在 UserLibri 数据集上训练时,识别误差率 (Word Error Rate, WER) 为 84%,在 LJ Speech 数据集上训练时为 38%。然而,通过 55 个代理进行点对点学习,并使用 UserLibri 数据集和 LJ Speech 数据集进行训练时,WER 在 UserLibri 数据集上的范围为 87% 至 92%,在 LJ Speech 数据集上的范围为 52% 至 56%。结果表明,在分散式训练环境中使用 Seq2Seq 模型是可行的,尽管识别误差率 (WER) 稍高于集中式训练方法。