MALACH 项目中基于 Transformer 的正式与口语捷克语自动语音识别

Jun, 2022

MALACH 项目中基于 Transformer 的正式与口语捷克语自动语音识别

Transformer-based Automatic Speech Recognition of Formal and Colloquial Czech in MALACH Project

Jan Lehečka, Josef V. Psutka, Josef Psutka

TL;DR本文研究以最新的端到端自监督音频 Transformer 技术为基础，探讨非正式口语形式对 Wav2Vec 2.0 模型性能和转录正式文本的影响，并提出具有正式和非正式语言模型的训练方案及评测结果。

Abstract

Czech is a very specific language due to its large differences between the formal and the colloquial form of speech. While the formal (written) form is used mainly in official documents, literature, and public speeches, the colloquial (spoken) form is used widely among people in casual speeches. This gap introduces serious problems for →

czech language asr systems self-supervised audio transformers colloquial speech wav2vec 2.0

发现论文，激发创造

使用大型数据集探索单语音频 Transformer 在捷克语自动语音识别中的能力

本文介绍了在大数据集上通过预训练机器学习模型和微调等方法，利用无标签语音数据和有标签语音数据对 Wav2Vec 2.0 进行 ASR 系统的训练及评估，并取得成功的实验结果。

Jun, 2022

基于 Transformer 的语音识别模型的迁移学习：由捷克语到斯洛伐克语

本文探讨了利用 Transfer Learning 方法，从 Czech pre-trained Wav2Vec 2.0 Model 中导入语音识别模型到斯洛伐克，并在三个 Slovak 数据集上进行了测试，结果表明在预训练阶段初始化权重后，我们的斯洛伐克模型取得了最佳结果，并且优于更大的公共多语种模型。

Jun, 2023

WMT19 中的英捷系统：文档级 Transformer

本文介绍在 WMT19 共享任务中，我们采用 Transformer 模型和 document-level 训练方式，用于英捷克翻译，以提高翻译文件的充分性和连贯性。

Jul, 2019

Prak：捷克语自动语音对齐工具

该研究创建了一个用于简化语音学研究中标注语音的自由开源工具，包括音频对齐、语音识别等多项功能，可用于苹果、Linux 等多平台，能够对捷克语语音进行变体选择、捕捉语言逻辑等，并获得了良好的实际效果。

Apr, 2023

捷克语的神经生成：数据和基线

该研究提供了一份重点研究餐厅场景下，针对捷克语言的 NLG 数据集，并介绍了针对此语言难点的两种模型，分别为使用神经语言模型在词汇化时选择正确的变形形式以及使用序列到序列模型生成词元和形态标记的交替序列，再由形态生成器进行变形。

Oct, 2019

使用 Kaldi 进行自动语音识别的奥地利德语会话

本文研究使用基于知识的发音词典来提高德语对话语音识别的性能。实验结果表明，相对于增加语言模型数据的大小，使用发音词典可以在低资源语料情况下取得高性能。

Jan, 2023

衡量语音识别公平性的探索：非正式会话数据集转录

本研究在自动语音识别系统领域对 “Casual Conversations” 进行了研究，发现了多个模型在性别和肤色方面存在显著的词错误率差异。此外，研究呼吁社区开发各种技术以减少这些统计偏差。

Nov, 2021

半监督语音混合训练声学模型

本文主要介绍了对 Frisian—Dutch code-switching 语音进行自动化标注和学习的几种方法，并探索了扩充语音数据的方法以提高类似语音识别模型的效果的研究。

Oct, 2018

通过欧盟辩论自动语音识别进行政治语料库创建

本文提出了一个欧盟议会 LIBE 委员会的书面语料库，总计 3.6 百万字。在实验过程中，我们使用基于 transformer 的 Wav2vec2.0 模型作为自动语音识别（ASR）流程的基础，并尝试了多个音频模型，语言模型和特定领域术语的添加来适应领域。结果表明，特定领域的音频模型和语言模型显着提高了 ASR 输出的质量，将错误率从 28.22 降至 17.95，并对下游分析任务有用。

Apr, 2023

低资源自动语音识别的方言适应和数据增强：MADASR 2023 挑战中的 TalTech 系统

通过使用 aligned data augmentation 技术增强语言多样性和 deep prefix tuning 方法进行方言适应，Tallinn University of Technology（TalTech）在 ASRU MADASR 2023 Challenge 的两个轨道中都取得了显著的改进，并实现了参与团队中最低的词错误率。

Oct, 2023