自我批评序列训练用于自动语音识别
本研究通过自我批判的序列训练 (SCST) 优化了图像说明系统,采用强化学习的政策梯度方法直接训练系统,并使用 MSCOCO 测试指标,使性能显著提高,实现了针对端到端系统直接优化非可微分度量的目标。
Dec, 2016
本文研究了训练注意力机制的序列到序列模型来直接最小化期望的单词错误率,通过实验证明通过 N-best 列表的解码假设比基于模型的采样方法效果更好,相对于基准系统性能提高了 8.2%。
Dec, 2017
本文提出了一种基于端到端系统的自学习半监督自动语音识别方法,通过对无监督数据的伪标记迭代地增强有标记的数据,从而提高系统性能,实现数据增强效果,获得了 14.4% 的相对识别错误率改进。
Jan, 2020
本文提出了一种名为对比半监督学习(Contrastive Semi-supervised Learning, CSL)的方法,通过挑选正负样本来替代直接预测教师生成的伪标签,并将其应用于翻译公共社交媒体视频的挑战任务中,从而比标准的交叉熵伪标签(CE-PL)减少了 8% 的 WER。
Mar, 2021
该研究使用预训练序列到序列模型 BART,并对其进行自适应训练来对自动语音识别中的发音和拼写错误进行纠正,并采用词级对齐的简单方法重新评分。实验结果表明,该策略在口音语音数据上有效地矫正了大量 ASR 错误,并在与基准系统的比较中产生了改进的 WER 结果。然而,在印地语语法错误纠正任务中,该模型捕捉更广泛上下文的能力受到限制。
Feb, 2022
探索使用基于 LSTM 单元的序列到序列 (Seq2Seq) 模型在点对点学习环境下的自动语音识别 (ASR) 任务的适用性,通过两种不同的点对点学习方法模拟代理学习过程,并使用两个不同的 ASR 数据集评估其性能。研究发现在集中式训练环境中,使用缩小版 Deep Speech 2 模型的单个模型在 UserLibri 数据集上训练时,识别误差率 (Word Error Rate, WER) 为 84%,在 LJ Speech 数据集上训练时为 38%。然而,通过 55 个代理进行点对点学习,并使用 UserLibri 数据集和 LJ Speech 数据集进行训练时,WER 在 UserLibri 数据集上的范围为 87% 至 92%,在 LJ Speech 数据集上的范围为 52% 至 56%。结果表明,在分散式训练环境中使用 Seq2Seq 模型是可行的,尽管识别误差率 (WER) 稍高于集中式训练方法。
May, 2024
本文提出了一种深度学习方法来解决自动摘要任务,通过将主题信息结合到卷积序列到序列 (ConvS2S) 模型中,并使用自举式非监督序列训练 (SCST) 进行优化。通过联合关注主题和单词级别对齐,我们的方法可以通过有偏的概率生成机制改善生成摘要的一致性、多样性和信息量。与 SCST 类似的强化训练直接根据不可微度量 ROUGE 优化所提出的模型,在推理期间也避免了曝光偏差。我们在 Gigaword、DUC-2004 和 LCSTS 数据集上对最先进的方法进行了实验评估。实证结果证明了我们所提出的抽象摘要方法的优越性。
May, 2018
通过提出一种名为连续模型编辑的新方法,本研究解决了自动语音识别系统中的领域迁移问题,并实验证明相对于基准微调和其他深度学习算法,该方法在减少词错误率和提高识别效率方面取得了显著的优势。
Jun, 2024
本文探讨了自我训练在端到端语音识别中的应用,并展示给出了使用伪标签训练深度学习模型的方法,经过实验证明了该方法可以大幅提高基准模型的准确率,通过使用语音和语言模型生成伪标签和一些序列到序列模型的过滤机制,并采用新颖的集成方法提高伪标签的多样性,实验结果表明,在噪声语音环境下,使用自我训练的集成模型可以相对于只使用 100 小时标记数据的基准模型,使字错率(WER)提高了 33.9%;在清晰语音环境下,自我训练可以弥补基准模型和理想模型之间相对提高了至少 93.8%的差距。
Sep, 2019
本文介绍了一种用于自动语音识别(ASR)的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构,将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中,我们的方法在词错误率上表现优异,尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型,并接近于使用 Transformer-XL 神经语言模型重新评分的性能。
Oct, 2019