基于 Transformer 的混合语音识别声学建模
本文总结了 Transformer 和其可流式传输的变体 Emformer 在大规模语音识别应用中的应用。通过比较 Transformer 和 LSTM 模型在工业规模任务中的差异,介绍了 Emformer 在中等延迟任务和低延迟任务上与 LCBLSTM 和 LSTM 的性能比较。结果表明,Emformer 在低延迟语音助手任务中有 24%至 26%的相对单词错误率降低,并在视频字幕数据集中的四种语言中比 LCBLSTM 具有更优异的性能。
Oct, 2020
本文提出了基于 Transformer 和调制的两种极具轻量性能却强大的情感识别和情感分析解决方案,通过组合大量数据集的语言和语音输入来挑战、有时甚至超越这一领域的现有技术,并在 IEMOCAP、MOSI、MOSEI 和 MELD 数据集上评估和验证其性能。
Oct, 2020
最近在深度学习和自动语音识别(ASR)方面的进展使得端到端(E2E)ASR 系统成为可能,并且将准确性提升到一个新的水平。我们提出将外部的 AM 整合到 E2E 系统中,以更好地解决领域不匹配问题,并取得了显著的词错误率降低,尤其在增强命名实体识别方面效果明显。
Oct, 2023
本文提出了用卷积学习输入表示替换变形器的正弦位置嵌入,并阐述其在提供长程关系方面的优势和优化特点,最终实现了在无额外语言模型文本下,librispeech 测试中 4.7%和 12.9%的字错率。
Apr, 2019
该论文提出了一种端到端的语音识别模型,使用 Transformer 编码器可用于流媒体语音识别系统;该模型在 LibriSpeech 数据集上进行了实验结果,结果表明限制 Transformer 层中自注意力左侧上下文对于流式解码是可行的,并展示了我们的全注意力模型在 LibriSpeech 基准测试上的准确性优于现有技术水平。
Feb, 2020
本文提出了一种新颖的增强记忆自注意力机制,用于 Transformer 语音识别中的流式应用,相对于现有的可流式 Transformer 方法,减小了计算量并在 Librispeech 基准测试中实现了超过 15% 的相对误差降低。
May, 2020
本文介绍了一种用于自动语音识别(ASR)的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构,将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略,并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中,我们的方法在词错误率上表现优异,尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型,并接近于使用 Transformer-XL 神经语言模型重新评分的性能。
Oct, 2019
使用贝叶斯学习框架和变分推断优化,提高了 Transformer 神经语言模型的泛化性能和模型鲁棒性。在 Switchboard 语料库和 DementiaBank 中的实验都获得了明显的性能提升。
Feb, 2021
本论文探讨了 transformer-RNN-transducer 系统的多任务学习、联合优化和联合解码方法,证明了这些方法能够有效地降低字词错误率,从而保持大型文本语料库的信息。
Nov, 2020
本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器,成功地应用于流式同声传译任务,可以处理大量连续输入,相较于单向掩码 Transformer 模型,具有更好的延迟和质量平衡。
Oct, 2020