BEA-Base: 匈牙利自发语音识别基准测试

Feb, 2022

BEA-Base: 匈牙利自发语音识别基准测试

BEA-Base: A Benchmark for ASR of Spontaneous Hungarian

P. Mihajlik, A. Balog, T. E. Gráczi, A. Kohári, B. Tarján...

TL;DR介绍了一种依据 BEA 的子集 BEA-Base，用于评估匈牙利语的自然语音识别系统，并使用多语言自监督预训练的方法，比传统的方法实现了 45% 的识别误差率的降低。

Abstract

hungarian is spoken by 15 million people, still, easily accessible Automatic Speech Recognition (ASR) benchmark datasets - especially for spontaneous speech - have been practically unavailable. In this paper, we

hungarian automatic speech recognition bea-base spontaneous speech multilingual self-supervised pretraining

发现论文，激发创造

基于 Wav2Vec2 和迁移学习的孟加拉语自动语音识别系统

本文旨在利用基于迁移学习框架的端到端语音识别技术，提高孟加拉语的语音识别性能，并在使用仅 1000 个训练样本进行训练的情况下，在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。

Sep, 2022

ESB：多域端到端语音识别基准测试

本文介绍了一个最新的基于端到端的语音识别测试平台，探讨了跨多个不同数据集和语音分布时对识别相同语音流的支持，并对不同的系统进行了比较分析分析，发现端到端系统在不同数据集的应用效果良好，并指出了如何改进现有语音识别系统存在的问题。

Oct, 2022

孟加拉 Common Voice 语音数据集用于自动语音识别

通过众包的方式，我们创建了孟加拉语公共语音数据集，该数据集是一个句子级自动语音识别语料库，与现有的最大开源孟加拉语数据集相比，该数据集具有更多的说话人、音素和环境多样性，并为未来的研究设立了基准。

Jun, 2022

Bangla-Wave：利用 N-gram 语言模型提高孟加拉语自动语音识别

通过微调波形向量预训练模型，并将 N-gram 语言模型作为后处理程序，我们在 Bengali Common Voice 语音数据集上生成了一个性能更好的孟加拉语自动语音识别模型，并且比现有模型更具有鲁棒性。

Sep, 2022

面向语音识别的即时基于特征的发音障碍和老年人说话适应

该研究提出了两种新型的基于特征的即时演讲者适应方法，即基于演讲者水平的方差规范化谱基础嵌入 (SBEVR) 特征和基于即时学习的隐藏单元贡献 (LHUC) 转换。实验结果显示，这两种方法在适应演讲者语音时表现出色，其中基于 SBEVR 特征的适应方式的性能优于基于模型的 LHUC 适应。

Mar, 2022

HyPoradise: 一种基于大型语言模型的生成式语音识别的开放基准

采用外部巨大语言模型 (LLMs) 进行自动语音识别 (ASR) 错误订正的首个开源基准测试涵盖了超过 334,000 个 N-best 假设及相应准确转录数据对，通过三种不同程度标记的假设 - 转录对利用 LLMs 实现了显著的词错误率 (WER) 降低，实验结果表明该技术突破了传统的重新排名方法上限并具备生成能力，从而纠正了 N-best 列表中缺失的标记，提供了一个基于 LLMs 的 ASR 错误订正的全新评估范式。

Sep, 2023

使用 Kaldi 进行自动语音识别的奥地利德语会话

本文研究使用基于知识的发音词典来提高德语对话语音识别的性能。实验结果表明，相对于增加语言模型数据的大小，使用发音词典可以在低资源语料情况下取得高性能。

Jan, 2023

提升挪威语自动语音识别

本文介绍了自然语言处理中自动语音识别的基准线模型在 Bokmål 和 Nynorsk 上的表现，其中最优模型使得 Norwegian Parliamentary Speech Corpus 的词错误率降至 7.6％，并探讨了提高挪威语 ASR 模型的挑战和解决方案。

Jul, 2023

芬兰议会 ASR 语料库 - 分析，基准测试和统计

本文介绍了芬兰议会 ASR 语料库及相关的 Kaldi-based 数据准备管道，HMM，HMM-DNN 和 AED ASR 配方，以及通过测试集和其他数据集在 ASR 上设置了基准，最后比较了不同议会元数据的 ASR 准确性变化。

Mar, 2022

MSR-86K：一个包含 86,300 小时语音转换文本的多语种演变语料库，用于语音识别研究

该论文介绍了 MSR-86K，这是一个逐渐增长的大规模多语言语音识别研究语料库，由 YouTube 上公开可访问的视频转录数据组成，包括 15 种语言和总共 86300 小时的 ASR 数据。同时，该论文还介绍了如何使用 MSR-86K 语料库和其他开源语料库来训练一个与 Whisper 相媲美的强大的多语言语音识别模型。我们将在 HuggingFace 上公开发布 MSR-86K，相信这样一个大规模的语料库将为多语言语音识别的研究开辟新的道路。

Jun, 2024