为瑞典自动语音识别系统开发声学模型

Apr, 2024

为瑞典自动语音识别系统开发声学模型

Developing Acoustic Models for Automatic Speech Recognition in Swedish

Giampiero Salvi

TL;DR本研究旨在通过训练系统实现自动持续语音识别，并以瑞典口语为例，使用隐藏马尔可夫模型，利用 SpeechDat 数据库进行参数训练。在这项研究中，声学建模在语音识别应用方面具有一定的普适性，尽管对模型评估仅考虑了一个简化的任务（数字和自然数识别）。研究还测试了不同类型的音素模型，包括独立上下文模型和两种上下文相关模型的变体。同时，还进行了多个使用双字语言模型调整系统参数的实验。研究还检查了在不同说话者子集（性别、年龄和方言）上系统性能的情况，并将结果与先前类似研究进行了对比，显示出明显的改进。

Abstract

This paper is concerned with automatic continuous speech recognition using trainable systems. The aim of this work is to build acoustic models for spoken Swedish. This is done employing →

automatic continuous speech recognition acoustic models hidden markov models speechdat database phone models

发现论文，激发创造

国家图书馆内的言语语料库与瑞典语言音模型

本文通过使用 wav2vec 2.0 结构与来自瑞典国家图书馆 (KB) 收藏的语音语料库，对实现适用于瑞典语音频资源的语音文本管道的不同方法进行了评估并进行了改进。最终，作者提出的 VoxRex 声学模型表现出比现有瑞典语言 ASR 模型更好的性能，并强调了这样的技术在文化遗产机构中处理大量未标记音频视觉数据的潜力。

May, 2022

具有对话上下文信息的声学到词语模型

直接从声音到单词，利用交际上下文信息的端到端语音识别模型，在 Switchboard 语料库上验证表现优于现有模型。

May, 2019

神经语音识别：基于声学到词汇 LSTM 模型的大词汇量语音识别

使用 CTC 损失和双向 LSTM RNN 网络，基于整词的声学单位构建连续语音识别系统，无需传统上下文依赖的子词单元和语言模型。

Oct, 2016

基于深度学习的声学模型最新进展（更新）

本文总结了基于深度学习的声学模型最近取得的进展和技术的动机和见解，讨论了可以有效利用可变长度上下文信息的语音识别模型，如 RNN、CNN 及其与其他模型的组合，以及优化了端对端性能的声学模型和鲁棒性训练策略，同时讨论了语音增强和分离等建模技术。

Apr, 2018

构建英语会话语音识别的具有竞争力的直接声学到单词模型

介绍了一个配方来训练一个 A2W 模型，以缩小与常规模型的差距，并呈现了一个联合单词 - 字符 A2W 模型，以提供富有意义的输出。

Dec, 2017

半监督语音混合训练声学模型

本文主要介绍了对 Frisian—Dutch code-switching 语音进行自动化标注和学习的几种方法，并探索了扩充语音数据的方法以提高类似语音识别模型的效果的研究。

Oct, 2018

LSTM 语音模型通过字形对齐和发音学习

本文介绍了一种基于图音分离的语音识别训练方法，并将其应用于四种印度语言的研究中。实验表明，使用该训练方法训练的模型在大型数据集上具有与基于音素模型相媲美的声学建模效果，并且产生的音频到图音对齐性能优秀，非常适合于实际应用。

Aug, 2020

语音识别中的学习：上下文音频词嵌入

本文提出一种方法，使用注意力分配从监督序列到序列的语音到单词识别模型中直接构建上下文语音嵌入。在一系列 16 个标准句子评估任务中，我们的嵌入表现与在语音转录中训练的 word2vec 模型相当。此外，我们在口语理解任务上评估这些嵌入并观察到，我们的嵌入匹配基于文本的嵌入在首先进行语音识别，然后从转录中构建单词嵌入的流水线中的性能。

Feb, 2019

利用人工神经网络识别持续孟加拉语言中的说话者划分

通过应用连续的孟加拉语音，我们提出了一种方法来确定某个地区说话者的地理身份，使用了 Mel 频率倒谱系数（MFCC）和 Delta 特征在人工神经网络上对说话者进行分类，并在特征提取之前对原始音频进行了一些预处理任务。我们的数据集包括 633 个男性和女性说话者的超过 45 小时的音频数据，并获得了 85.44% 的最高准确率。

Apr, 2024

使用双向递归深度神经网络进行大词汇连续语音识别的一次通过

本文提出了使用神经网络和语言模型进行大词汇连续语音识别的方法，并通过一种改进的前缀搜索解码算法，使得该方法完全不依赖于基于 HMM 的架构，实现了完全自主的一遍语音识别。在对华尔街日报语料库的实验中，取得了较为具有竞争力的错误率，并且证明了双向网络的重要性。

Aug, 2014