SPGISpeech：5000 小时的财经音频文本，用于完全格式化的端到端语音识别

Apr, 2021

SPGISpeech：5000 小时的财经音频文本，用于完全格式化的端到端语音识别

SPGISpeech: 5,000 hours of transcribed financial audio for fully formatted end-to-end speech recognition

Patrick K. O'Neill, Vitaly Lavrukhin, Somshubra Majumdar, Vahid Noroozi, Yuekai Zhang...

TL;DR本文提出了一种新的语音转文字任务，即端到端的全格式文本转换，通过训练 Conformer-based 模型，成功实现了一个基线模型。

Abstract

In the English speech-to-text (STT) machine learning task, acoustic models are conventionally trained on uncased Latin characters, and any

speech-to-text machine learning conformer-based models acoustic models transcription

发现论文，激发创造

GigaSpeech: 一个拥有 10,000 小时转录音频的不断发展的多领域 ASR 语料库

本论文介绍了一个新的、多领域的英语语音识别语料库 ——GigaSpeech，它包含了来自有声读物、播客和 YouTube 等各种领域的高质量标记音频，提供了五个不同大小的训练子集，并提出了一种新的强制对齐和分割管道来创建适用于语音识别训练的句子段，并过滤出低质量的转录片段。最终在 Athena、ESPnet、Kaldi 和 Pika 等流行的语音识别工具包上，提供了基准系统。

Jun, 2021

从零开始重新审视端到端的语音到文本翻译

本文通过重新审视机器翻译中的 ST 和文本翻译任务技术，提出了一套训练 E2E ST 系统的最佳实践，其中包括参数化距离惩罚、模拟本地化技术等。实验表明，在不使用转录文本和预训练的情况下，该系统可以达到并甚至超过之前使用预训练方法的研究水平，对于极低资源环境依然有差距。此外，我们还首次证明了神经声学特征建模的可行性，并在 ST 任务中取得了令人鼓舞的效果。

Jun, 2022

有声读物端到端自动语音翻译

本研究旨在探讨在经过语料库特殊增强的情况下，对语音到文本翻译进行端到端的研究。我们不仅研究了在学习和解码期间没有源语言转录的极端情况，还研究了在训练时仅提供源语言转录的中间情况。实验结果表明，在这种设置下，可以训练出紧凑高效的端到端语音转换模型。同时，我们提供了语料库，并希望未来的研究能够挑战我们在该语料库上的语音翻译基线模型。

Feb, 2018

端到端语音到文本翻译：综述

语音到文本翻译中的端到端模型的综述，包括模型、评估指标和数据集，提供了挑战和未来研究方向的新见解。

Dec, 2023

探索迁移学习用于端到端语音理解

本文提出了一种多任务联合训练的端到端语音理解模型 “Audio-Text All-Task (AT-AT) Model”，该模型能够同时训练语音转文字、语音理解和文本理解任务，不仅可以在多个数据集上实现最优性能，还可用于零 - shot 端到端语音理解任务。

Dec, 2020

大规模弱监督进行稳健语音识别

研究了训练简单的语音处理系统预测互联网音频大量转录的能力，在 680,000 小时的多语言和多任务监督的基础上，生成的模型具有很好的泛化能力，并且通常与之前的完全监督结果竞争，但在零次传输设置下不需要进行任何微调，与人类相比，模型的准确性和稳健性接近，并且同时发布了模型和推理代码，作为进一步稳健语音处理工作的基础。

Dec, 2022

利用支持性文本数据启动有限转录的自动语音识别系统开发

本文研究发现，使用不同数量的文本数据进行训练和 fine-tune transformer model 可以降低自动语音识别（ASR）的 word error rate，其中 lexicon 对于改善 ASR 性能没有多大作用，而使用必要量的文本数据可以通过利用自然语言处理技术使自动语音识别接近人类的水平。

Feb, 2023

语音感知对话系统技术挑战赛（DSTC11）

本文涉及针对与书面文本不同的口语输入而设计的任务型对话建模，以解决自动语音识别系统所引入的误差，并针对多轮对话建立了一个公共语料库，研究各种形式的语音输出的性能差距，并给出了初步分析。

Dec, 2022

多语言端到端语音翻译

本文提出了一种简单且有效的多语言端到端语音翻译框架，并证明了其在自动语音识别、机器翻译、一对多翻译以及多对多翻译中的有效性以及相对于双语端到端语音翻译的优势。

Oct, 2019

交互解码同步语音识别与语音文本翻译

本文提出了一种新的交互式注意机制，使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行，实验表明，该模型在语音翻译和语音识别方面的性能表现均优于基线模型。

Dec, 2019