走向端到端的语音转文本摘要

Jun, 2023

Towards End-to-end Speech-to-text Summarization

Raul Monteiro, Diogo Pernes

TL;DR将语音文字（S2T）摘要分为级联和端到端两种模型，并使用预训练的 T2T 摘要提取器进行迁移学习，进而将其应用于在线上传的广播新闻中。结果表明，端到端模型要略逊于级联模型，但都优于提取式基线模型。

Abstract

Speech-to-text (S2T) summarization is a time-saving technique for filtering and keeping up with the broadcast news uploaded online on a daily basis. The rise of large language models from deep learning with impressive text generation capabilities has placed the research focus on summar

speech-to-text summarization end-to-end modelling broadcast news abstractive summaries transfer learning

发现论文，激发创造

利用大型文本语料库进行端到端语音摘要

本文介绍了两种新颖的方法，利用大量外部文本摘要数据为 E2E SSum 训练提供支持，分别是使用 TTS 系统生成合成语音进行训练，以及使用输入音素序列而非合成语音直接训练模型。实验证明，这些方法在 How2 数据集上改进了多个指标，并且是第一篇使用外部语言资源进行 E2E SSum 的工作。

Mar, 2023

预训练语言模型迁移学习改进端到端语音摘要

本文提出在端对端语音摘要（E2E SSum）模型中集成预训练语言模型来解决数据稀缺问题，并通过迁移学习来减少编解码器之间的差距。实验证明，该模型表现优于基线和数据增强模型。

Jun, 2023

端到端语音到文本翻译：综述

语音到文本翻译中的端到端模型的综述，包括模型、评估指标和数据集，提供了挑战和未来研究方向的新见解。

Dec, 2023

从零开始重新审视端到端的语音到文本翻译

本文通过重新审视机器翻译中的 ST 和文本翻译任务技术，提出了一套训练 E2E ST 系统的最佳实践，其中包括参数化距离惩罚、模拟本地化技术等。实验表明，在不使用转录文本和预训练的情况下，该系统可以达到并甚至超过之前使用预训练方法的研究水平，对于极低资源环境依然有差距。此外，我们还首次证明了神经声学特征建模的可行性，并在 ST 任务中取得了令人鼓舞的效果。

Jun, 2022

探索迁移学习用于端到端语音理解

本文提出了一种多任务联合训练的端到端语音理解模型 “Audio-Text All-Task (AT-AT) Model”，该模型能够同时训练语音转文字、语音理解和文本理解任务，不仅可以在多个数据集上实现最优性能，还可用于零 - shot 端到端语音理解任务。

Dec, 2020

联合语音识别和翻译的流式模型

本文介绍了如何使用端到端模型进行语音翻译，并在流式翻译设置中实现同时生成音频转录和翻译输出，并比较了与标准级联方法的表现，结果表明这种方法与级联模型的表现相似，但参数数量更少。

Jan, 2021

长文同时语言翻译：论文提案

同时语音翻译 (SST) 的目标是提供实时的口语翻译，即使在发言者完成句子之前。传统上，SST 主要通过级联系统来解决，将任务分解为子任务，包括语音识别、分割和机器翻译。然而，深度学习的出现激发了对端到端 (E2E) 系统的极大兴趣。然而，当前文献中大多数 E2E SST 方法的主要限制是它们假设源语音被预分割为句子，这对于实际的现实应用是一个重要的障碍。本论文提出了端到端的同时语音翻译，特别是在长篇设定中，即不进行预分割。我们对 E2E SST 的最新进展进行了调研，评估了 SST 的主要障碍以及其与长篇情景的相关性，并提出了应对这些挑战的方法。

Oct, 2023

端到端语音识别综述

该研究论文介绍了端到端自动语音识别模型的分类和改进，讨论了它们对传统隐马尔科夫模型的影响，涵盖了模型、训练、解码和外部语言模型集成等各个方面，同时讨论了性能和部署机会以及未来的发展前景。

Mar, 2023

基于端到端的语音转文本翻译的比较研究

本文介绍了深度学习在语音到文本翻译领域的应用，主要研究了不同端到端架构以及辅助性连接主义时间分类（CTC）损失函数的使用，着重探讨了预训练模型对最终性能的影响，实验证明预训练模型可以使 BLEU 指标提高 4％，TER 指标提高 5％，并且在 270 小时 IWSLT TED 演讲 En->De 和 100 小时 LibriSpeech Audiobooks En->Fr 上的实验结果表明，该方法可以超过当前的端到端最先进系统。

Nov, 2019

移动设备端到端语音识别流式处理

本文詳細描述了使用遞歸神經網絡轉導器構建端到端語音識別器的努力，該模型可以以流式方式在實時下進行解碼，能夠應對各種需求，能利用特定用戶的上下文信息，並超越基於 CTC 的模型在各評價指標中的性能表現。

Nov, 2018