语义修正的阿姆哈拉语自动语音识别

Apr, 2024

语义修正的阿姆哈拉语自动语音识别

Semantically Corrected Amharic Automatic Speech Recognition

Samuael Adnew, Paul Pu Liang

TL;DR通过使用转换编码器 - 解码器体系结构和对现有阿姆哈拉语语音识别测试数据集的修正，我们的研究提高了阿姆哈拉语语音识别系统的语义正确性，实现了 5.5％的字符错误率（CER）和 23.3％的词错误率（WER）。

Abstract

automatic speech recognition (ASR) can play a crucial role in enhancing the accessibility of spoken languages worldwide. In this paper, we build a set of ASR tools for amharic, a language spoken by more than 50 m

automatic speech recognition amharic ge'ez script grapheme error rates transformer encoder-decoder architecture

发现论文，激发创造

基于 Transformer 序列到序列模型的自动语音识别纠错

本文介绍了一种用于自动语音识别（ASR）的简单而有效的后处理模型。我们的模型使用基于 Transformer 的编码器 - 解码器架构，将 ASR 模型输出 “翻译” 成语法和语义正确的文本。作者探讨了不同的规范化和优化策略，并表明需要广泛的数据增强和预训练权重的初始化才能实现良好的性能。在 LibriSpeech 基准测试中，我们的方法在词错误率上表现优异，尤其是在更嘈杂的 dev-other 和 test-other 部分的评估数据集上。我们的模型还通过 6-gram 语言模型重新评分超过了基础模型，并接近于使用 Transformer-XL 神经语言模型重新评分的性能。

Oct, 2019

年轻英语学习者语音的错误保留自动语音识别

在这项工作中，我们构建了一个满足条件的自动语音识别系统，用于年轻语言学习者的自由说话并保留他们的错误。

Jun, 2024

非洲土著语言语音转文本应用中的音素表示和转写：以斯瓦希里语为例

研究探索了 Kiswahili 语音文本的转录和 Kiswahili 语音语料库的开发，提供了 CMU Sphinx 语音识别工具箱创建的 Kiswahili 音素字典，以及使用扩展的音位集培训的 ASR 模型，使得模型优于以前类似研究的表现，并可在听障者中实现其母语的转录。

Oct, 2022

基于 Wav2Vec2 和迁移学习的孟加拉语自动语音识别系统

本文旨在利用基于迁移学习框架的端到端语音识别技术，提高孟加拉语的语音识别性能，并在使用仅 1000 个训练样本进行训练的情况下，在测试数据集上实现了 3.819 的 Levenshtein Mean Distance 得分。

Sep, 2022

基于 ASR 转录的语音情感识别：关于词误率和融合技术的全面研究

使用不同词错误率（WERs）的 ASR 转录对 IEMOCAP，CMU-MOSI 和 MSP-Podcast 等已知语料库进行 SER 性能评估，同时提出了一个统一的 ASR 错误抗干扰框架，并与最佳表现的 ASR 转录进行比较，实现了更低的 WER 和更高的 SER 结果，为 SER 与 ASR 协助的研究提供了洞见。

Jun, 2024

自动语音识别系统 —— 印地语

自动语音识别（ASR）是计算语言学的一个关键领域，主要研究开发能够使计算机将口语转换为文本的技术。该研究聚焦于开发基于 JavaScript 和 Node.js 的网络应用程序和语音识别的网络界面，使用监督学习训练改善语音识别的神经网络，并设计对声音信号进行准确对齐的新型反向传播方法。

Jun, 2024

梵语自动语音识别：新的语音语料库和建模见解

本文对梵语 ASR 进行了首次大规模研究，研究了单元选择对梵语 ASR 的影响，并发布了 78 小时的梵语 ASR 数据集，研究不同声学模型和语言模型单元在 ASR 系统中的角色，提出了一个新的模型单元，并强调选择语文文字表示对词错误率的影响。

Jun, 2021

重音语音识别综述

该研究论文探讨了自动语音识别（ASR）系统在不同语音口音上的普适性问题，分析了当前最有前景的口音识别方法，并强调了其中的关键挑战。

Apr, 2021

使用自监督语音表示学习快速开发非洲语言的自动语音识别技术

本文描述了在 2020 年 6 月非洲机器智能硕士（AMMI）期间启动的一次非正式合作的结果，该合作集中在自动语音识别（ASR）项目上，描述了如何收集数据以及使用少量（1 小时）转录语音作为训练数据如何开发 ASR 系统。在这种低资源条件下，基于大量原始语音的预训练模型对于开发 ASR 系统的效率至关重要。

Mar, 2021

使用序列到序列模型进行自动语音识别的误差校正

该研究使用预训练序列到序列模型 BART，并对其进行自适应训练来对自动语音识别中的发音和拼写错误进行纠正，并采用词级对齐的简单方法重新评分。实验结果表明，该策略在口音语音数据上有效地矫正了大量 ASR 错误，并在与基准系统的比较中产生了改进的 WER 结果。然而，在印地语语法错误纠正任务中，该模型捕捉更广泛上下文的能力受到限制。

Feb, 2022