MALACH 项目中基于 Transformer 的正式与口语捷克语自动语音识别
本文介绍了在大数据集上通过预训练机器学习模型和微调等方法,利用无标签语音数据和有标签语音数据对 Wav2Vec 2.0 进行 ASR 系统的训练及评估,并取得成功的实验结果。
Jun, 2022
本文探讨了利用 Transfer Learning 方法,从 Czech pre-trained Wav2Vec 2.0 Model 中导入语音识别模型到斯洛伐克,并在三个 Slovak 数据集上进行了测试,结果表明在预训练阶段初始化权重后,我们的斯洛伐克模型取得了最佳结果,并且优于更大的公共多语种模型。
Jun, 2023
本文介绍在 WMT19 共享任务中,我们采用 Transformer 模型和 document-level 训练方式,用于英捷克翻译,以提高翻译文件的充分性和连贯性。
Jul, 2019
该研究创建了一个用于简化语音学研究中标注语音的自由开源工具,包括音频对齐、语音识别等多项功能,可用于苹果、Linux 等多平台,能够对捷克语语音进行变体选择、捕捉语言逻辑等,并获得了良好的实际效果。
Apr, 2023
该研究提供了一份重点研究餐厅场景下,针对捷克语言的 NLG 数据集,并介绍了针对此语言难点的两种模型,分别为使用神经语言模型在词汇化时选择正确的变形形式以及使用序列到序列模型生成词元和形态标记的交替序列,再由形态生成器进行变形。
Oct, 2019
本文研究使用基于知识的发音词典来提高德语对话语音识别的性能。实验结果表明,相对于增加语言模型数据的大小,使用发音词典可以在低资源语料情况下取得高性能。
Jan, 2023
本研究在自动语音识别系统领域对 “Casual Conversations” 进行了研究,发现了多个模型在性别和肤色方面存在显著的词错误率差异。此外,研究呼吁社区开发各种技术以减少这些统计偏差。
Nov, 2021
本文主要介绍了对 Frisian—Dutch code-switching 语音进行自动化标注和学习的几种方法,并探索了扩充语音数据的方法以提高类似语音识别模型的效果的研究。
Oct, 2018
本文提出了一个欧盟议会 LIBE 委员会的书面语料库,总计 3.6 百万字。在实验过程中,我们使用基于 transformer 的 Wav2vec2.0 模型作为自动语音识别(ASR)流程的基础,并尝试了多个音频模型,语言模型和特定领域术语的添加来适应领域。结果表明,特定领域的音频模型和语言模型显着提高了 ASR 输出的质量,将错误率从 28.22 降至 17.95,并对下游分析任务有用。
Apr, 2023
通过使用 aligned data augmentation 技术增强语言多样性和 deep prefix tuning 方法进行方言适应,Tallinn University of Technology(TalTech)在 ASRU MADASR 2023 Challenge 的两个轨道中都取得了显著的改进,并实现了参与团队中最低的词错误率。
Oct, 2023