对等学习中的序列到序列模型：一个实用应用

May, 2024

对等学习中的序列到序列模型：一个实用应用

Sequence-to-sequence models in peer-to-peer learning: A practical application

Robert Šajina, Ivo Ipšić

TL;DR探索使用基于 LSTM 单元的序列到序列 (Seq2Seq) 模型在点对点学习环境下的自动语音识别 (ASR) 任务的适用性，通过两种不同的点对点学习方法模拟代理学习过程，并使用两个不同的 ASR 数据集评估其性能。研究发现在集中式训练环境中，使用缩小版 Deep Speech 2 模型的单个模型在 UserLibri 数据集上训练时，识别误差率 (Word Error Rate, WER) 为 84%，在 LJ Speech 数据集上训练时为 38%。然而，通过 55 个代理进行点对点学习，并使用 UserLibri 数据集和 LJ Speech 数据集进行训练时，WER 在 UserLibri 数据集上的范围为 87% 至 92%，在 LJ Speech 数据集上的范围为 52% 至 56%。结果表明，在分散式训练环境中使用 Seq2Seq 模型是可行的，尽管识别误差率 (WER) 稍高于集中式训练方法。

Abstract

This paper explores the applicability of sequence-to-sequence (Seq2Seq) models based on lstm units for automatic speech recognition (ASR) task within →

sequence-to-sequence models lstm units automatic speech recognition peer-to-peer learning word error rate

发现论文，激发创造

序列转序列模型中更好的解码和语言模型集成

该研究分析了一个基于注意力机制的序列到序列语音识别系统，提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案，并在没有语言模型的情况下，其词错误率为 10.6％，与 trigram 语言模型一起达到了 6.7％的词错误率。

Dec, 2016

多语言序列到序列语音识别：架构，转移学习和语言建模

本文提出使用多语言数据建立先前模型，结合迁移学习的方法，通过在 10 个 BABEL 语言中训练 seq2seq 模型来改进音频识别，同时在解码时加入循环神经网络语言模型 (RNNLM) 来进一步提高模型的表现，实验结果表明，将先前的多语言模型应用于 4 种其他 BABEL 语言可以有效提高识别的准确度，并且加入 RNNLM 辅助也可以带来显著的性能提升。

Oct, 2018

序列到序列学习作为 Beam-Search 优化

该研究介绍了一种基于全局序列评分学习的 Sequence-to-Sequence (seq2seq) 模型和波束搜索训练方案，通过避免局部训练的传统偏差问题，统一训练损失和测试时间使用，并保留 seq2seq 的有效训练方法。在单词排序、解析和机器翻译三个不同的序列到序列任务中，该系统优于基于注意力的 seq2seq 系统高度优化的系统和其他基准线。

Jun, 2016

使用序列 - 序列模型缓解语音识别错误对聊天机器人的影响

采用序列到序列模型解决语音识别误差对于开放域端到端对话生成的影响。将任务看做一个域适应问题，使用两个不同域的 ASR 转录和原始文本，并提出了两个独立编码器的模型，使其隐藏状态相似，并确保解码器预测相同的对话文本。实验结果表明该方法可以消除语音识别错误并帮助口语对话系统生成更相似于原始文本答案的响应。

Sep, 2017

使用单一端到端模型的多语言语音识别

本文介绍了一种基于序列到序列的正常语音识别模型，它适用于 9 种不同的印度语言，并通过训练语言特定的字形集合，将这些语言联合起来训练模型以提高其性能。

Nov, 2017

基于单头注意力的序列到序列模型，在 Switchboard 上实现最先进的结果

本文表明，使用单个头注意力，基于 LSTM 的直接 seq2seq 语音识别模型可以在只有少量数据时（即使只有 300 小时数据），在 Switchboard-300 数据库上实现最先进的识别性能，并且数据增强和谨慎的正则化对于获得这种水平的性能非常重要，然而，更多的数据仍然是更有用的，并且通过使用各种正则化技术和一个相对简单但足够大的模型的组合可以在 Switchboard 和 CallHome 数据集上取得 4.7％和 7.8％的 WER 结果。

Jan, 2020

基于深度强化学习的序列到序列模型

本文介绍最近相结合的 seq2seq，深度神经网络和加强学习模型，考虑如何在决策制定的 RL 方法中利用序列到序列模型的长期记忆能力来解决复杂的问题，提出并探讨 RL 方法解决序列到序列模型领域常见的曝光偏差而且在训练与测试的指标上也不一致的两个问题，并提供了大多数 RL 模型的源代码以支持抽象文本摘要的复杂任务。

May, 2018

基于序列到序列模型的最先进语音识别技术

本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段，将 Listen Attend Spell（LAS）模型应用于语音搜索任务中，从而将错误率从 9.2% 显著降至 5.6%。在听写任务中，该模型的错误率为 4.1%，略优于传统系统的 5.0%。

Dec, 2017

使用流式端到端模型进行长篇语音识别

通过多样化训练数据以及 LSTM 状态操作模拟长形音频，可以增强端到端语音识别模型对未知领域数据的泛化能力。

Oct, 2019

自我批评序列训练用于自动语音识别

本文提出了一种基于损失函数和词错误率的奖励函数的增强学习方法 —— 自我关键序列训练 (SCST) 来解决自动语音识别中的若干问题，取得了 8.7% 和 7.8% 的词错误率相对改进。

Apr, 2022