Prak:捷克语自动语音对齐工具
基于音素识别、表示学习和知识迁移,本文提出了一种新颖的文本无关音频对齐方法,利用自监督模型、维度降低模型和基于帧级音素分类器的强制对齐标签来产生多语言语音学表示,取得了优于传统方法的统计指标表现,在语言学习和语音处理系统中有应用意义。
May, 2024
本文介绍了一种新的计算机模型,该模型结合了最先进的自动化序列比对技术和新颖的语音对准分析技术以及声音对应模式检测技术,可用于监督祖先语言的单词形态学恢复,测试结果表明该方法既快速又易于实现和扩展。
Apr, 2022
本文介绍了在大数据集上通过预训练机器学习模型和微调等方法,利用无标签语音数据和有标签语音数据对 Wav2Vec 2.0 进行 ASR 系统的训练及评估,并取得成功的实验结果。
Jun, 2022
该研究提供了一份重点研究餐厅场景下,针对捷克语言的 NLG 数据集,并介绍了针对此语言难点的两种模型,分别为使用神经语言模型在词汇化时选择正确的变形形式以及使用序列到序列模型生成词元和形态标记的交替序列,再由形态生成器进行变形。
Oct, 2019
本文研究以最新的端到端自监督音频 Transformer 技术为基础,探讨非正式口语形式对 Wav2Vec 2.0 模型性能和转录正式文本的影响,并提出具有正式和非正式语言模型的训练方案及评测结果。
Jun, 2022
本研究使用零样本学习的方法解决语言无训练数据情况下语音转写的挑战,将语音音素分解成相应的发音属性,结合定制的声学模型,实现对目标语言中未知音素的识别,评估结果表明,该方法比传统多语言模型的平均音素误差率提高了 7.7%。
Feb, 2020
本研究介绍了多语言语音数据集 Common Phone,用其于 Wav2Vec 2.0 音频模型的参数训练并取得了 18.1% 的识别率,提供了可靠的注音,从而缩小了声学模型应用于实际场景的差距。
Jan, 2022
该研究提出了 ELLAA-V,一种基于语言模型的零样本文本转语音框架,可以在音素级别实现合成音频的细粒度控制,并且在准确性和稳定性方面优于现有方法。
Jan, 2024
本文提出了一种从转录数据中自动获得单词发音的系统,重点解决了从词汇表中删除词条的问题,实验结果表明我们提出的框架可以学习一个词汇表,在测试数据上的语音识别错误率 (WER) 性能接近于专家词汇表,而且比基于 G2P 或基于发音概率修剪标准构建的词典更好。
Jun, 2017
本文研究了预训练与弱语音监督的方法,提出了一种名为 Whistle 的数据有效 MCL-ASR 方法,通过国际音标转写,构建了一个基于 CommonVoice 数据集的实验平台,实验证明基于音素的模型在多语言语音识别中具有更好的性能和高数据效率。
Jun, 2024