走向端到端的语音转文本摘要
本文介绍了两种新颖的方法,利用大量外部文本摘要数据为 E2E SSum 训练提供支持,分别是使用 TTS 系统生成合成语音进行训练,以及使用输入音素序列而非合成语音直接训练模型。实验证明,这些方法在 How2 数据集上改进了多个指标,并且是第一篇使用外部语言资源进行 E2E SSum 的工作。
Mar, 2023
本文提出在端对端语音摘要(E2E SSum)模型中集成预训练语言模型来解决数据稀缺问题,并通过迁移学习来减少编解码器之间的差距。实验证明,该模型表现优于基线和数据增强模型。
Jun, 2023
本文通过重新审视机器翻译中的 ST 和文本翻译任务技术,提出了一套训练 E2E ST 系统的最佳实践,其中包括参数化距离惩罚、模拟本地化技术等。实验表明,在不使用转录文本和预训练的情况下,该系统可以达到并甚至超过之前使用预训练方法的研究水平,对于极低资源环境依然有差距。此外,我们还首次证明了神经声学特征建模的可行性,并在 ST 任务中取得了令人鼓舞的效果。
Jun, 2022
本文提出了一种多任务联合训练的端到端语音理解模型 “Audio-Text All-Task (AT-AT) Model”,该模型能够同时训练语音转文字、语音理解和文本理解任务,不仅可以在多个数据集上实现最优性能,还可用于零 - shot 端到端语音理解任务。
Dec, 2020
本文介绍了如何使用端到端模型进行语音翻译,并在流式翻译设置中实现同时生成音频转录和翻译输出,并比较了与标准级联方法的表现,结果表明这种方法与级联模型的表现相似,但参数数量更少。
Jan, 2021
同时语音翻译 (SST) 的目标是提供实时的口语翻译,即使在发言者完成句子之前。传统上,SST 主要通过级联系统来解决,将任务分解为子任务,包括语音识别、分割和机器翻译。然而,深度学习的出现激发了对端到端 (E2E) 系统的极大兴趣。然而,当前文献中大多数 E2E SST 方法的主要限制是它们假设源语音被预分割为句子,这对于实际的现实应用是一个重要的障碍。本论文提出了端到端的同时语音翻译,特别是在长篇设定中,即不进行预分割。我们对 E2E SST 的最新进展进行了调研,评估了 SST 的主要障碍以及其与长篇情景的相关性,并提出了应对这些挑战的方法。
Oct, 2023
该研究论文介绍了端到端自动语音识别模型的分类和改进,讨论了它们对传统隐马尔科夫模型的影响,涵盖了模型、训练、解码和外部语言模型集成等各个方面,同时讨论了性能和部署机会以及未来的发展前景。
Mar, 2023
本文介绍了深度学习在语音到文本翻译领域的应用,主要研究了不同端到端架构以及辅助性连接主义时间分类(CTC)损失函数的使用,着重探讨了预训练模型对最终性能的影响,实验证明预训练模型可以使 BLEU 指标提高 4%,TER 指标提高 5%,并且在 270 小时 IWSLT TED 演讲 En->De 和 100 小时 LibriSpeech Audiobooks En->Fr 上的实验结果表明,该方法可以超过当前的端到端最先进系统。
Nov, 2019
本文詳細描述了使用遞歸神經網絡轉導器構建端到端語音識別器的努力,該模型可以以流式方式在實時下進行解碼,能夠應對各種需求,能利用特定用戶的上下文信息,並超越基於 CTC 的模型在各評價指標中的性能表現。
Nov, 2018