通过欧盟辩论自动语音识别进行政治语料库创建

Apr, 2023

通过欧盟辩论自动语音识别进行政治语料库创建

Political corpus creation through automatic speech recognition on EU debates

Hugo de Vos, Suzan Verberne

TL;DR本文提出了一个欧盟议会 LIBE 委员会的书面语料库，总计 3.6 百万字。在实验过程中，我们使用基于 transformer 的 Wav2vec2.0 模型作为自动语音识别（ASR）流程的基础，并尝试了多个音频模型，语言模型和特定领域术语的添加来适应领域。结果表明，特定领域的音频模型和语言模型显着提高了 ASR 输出的质量，将错误率从 28.22 降至 17.95，并对下游分析任务有用。

Abstract

In this paper, we present a transcribed corpus of the LIBE committee of the eu parliament, totalling 3.6 Million running words. The meetings of parliamentary committees of the EU are a potentially valuable source

automatic speech recognition domain adaptation eu parliament corpus downstream analysis

发现论文，激发创造

芬兰议会 ASR 语料库 - 分析，基准测试和统计

本文介绍了芬兰议会 ASR 语料库及相关的 Kaldi-based 数据准备管道，HMM，HMM-DNN 和 AED ASR 配方，以及通过测试集和其他数据集在 ASR 上设置了基准，最后比较了不同议会元数据的 ASR 准确性变化。

Mar, 2022

ASR Bundestag：德国大规模政治辩论数据集

ASR Bundestag 是一个关于德语自动语音识别的数据集，包括 610 小时对齐的音频文本对以进行监督式训练及 1038 小时未标注的音频片段以便进行自监督学习。

Feb, 2023

Europarl-ST：面向议会辩论的语音翻译多语种语料库

本研究通过收集欧洲议会在 2008 年至 2012 年期间进行的演讲，创建了一个新型的包括 6 种欧洲语言互相翻译的语音和文本样本的多语种 SLT 语料库 Europarl-ST，并展示了一系列的语音识别、机器翻译和口语翻译实验。

Nov, 2019

国家图书馆内的言语语料库与瑞典语言音模型

本文通过使用 wav2vec 2.0 结构与来自瑞典国家图书馆 (KB) 收藏的语音语料库，对实现适用于瑞典语音频资源的语音文本管道的不同方法进行了评估并进行了改进。最终，作者提出的 VoxRex 声学模型表现出比现有瑞典语言 ASR 模型更好的性能，并强调了这样的技术在文化遗产机构中处理大量未标记音频视觉数据的潜力。

May, 2022

用于语音识别和翻译的多语种 TEDx 语料库

我们提供了一个多语言 TEDx 语料库，支持语音识别和语音翻译的研究，可以建立在许多非英语源语言上。这个语料库是一个来自 TEDx 演讲的音频记录集合，提供了 8 个源语言，我们将转录分割成句子，并将它们与源语言音频和目标语言翻译对齐。此外，我们提供基线模型，包括多语种模型，以提高低资源语种的翻译性能。

Feb, 2021

语音感知对话系统技术挑战赛（DSTC11）

本文涉及针对与书面文本不同的口语输入而设计的任务型对话建模，以解决自动语音识别系统所引入的误差，并针对多轮对话建立了一个公共语料库，研究各种形式的语音输出的性能差距，并给出了初步分析。

Dec, 2022

MSR-86K：一个包含 86,300 小时语音转换文本的多语种演变语料库，用于语音识别研究

该论文介绍了 MSR-86K，这是一个逐渐增长的大规模多语言语音识别研究语料库，由 YouTube 上公开可访问的视频转录数据组成，包括 15 种语言和总共 86300 小时的 ASR 数据。同时，该论文还介绍了如何使用 MSR-86K 语料库和其他开源语料库来训练一个与 Whisper 相媲美的强大的多语言语音识别模型。我们将在 HuggingFace 上公开发布 MSR-86K，相信这样一个大规模的语料库将为多语言语音识别的研究开辟新的道路。

Jun, 2024

利用支持性文本数据启动有限转录的自动语音识别系统开发

本文研究发现，使用不同数量的文本数据进行训练和 fine-tune transformer model 可以降低自动语音识别（ASR）的 word error rate，其中 lexicon 对于改善 ASR 性能没有多大作用，而使用必要量的文本数据可以通过利用自然语言处理技术使自动语音识别接近人类的水平。

Feb, 2023

利用大型语言模型进行零样本 ASR 领域自适应的语料合成

提出了一种新的自适应 ASR 模型到新目标领域的策略，其中使用大型语言模型生成目标领域文本语料库，并使用最先进的可控语音合成模型生成相应的语音，通过在上下文中进行指令微调以提高大型语言模型生成新领域文本语料库的效果，实验证明该方法在未知目标领域上能达到平均相对词错误率提高 28%，且源领域性能无降低。

Sep, 2023

用于德语端到端语音识别的大语料 CTC 分割

本研究结合之前未标注的语音数据通过采用 CTC 预训练的两阶段方法生成训练数据，使用 CTC 和 attention Transformer 模型对德语语音识别进行训练，实现了 12.8％的识别错误率，超过了传统混合 DNN / HMM ASR 的 14.4％的基础水平。

Jul, 2020