Prak：捷克语自动语音对齐工具

Apr, 2023

Prak: An automatic phonetic alignment tool for Czech

Václav Hanžl, Adléta Hanžlová

TL;DR该研究创建了一个用于简化语音学研究中标注语音的自由开源工具，包括音频对齐、语音识别等多项功能，可用于苹果、Linux 等多平台，能够对捷克语语音进行变体选择、捕捉语言逻辑等，并获得了良好的实际效果。

Abstract

Labeling speech down to the identity and time boundaries of phones is a labor-intensive part of phonetic research. To simplify this work, we created a free open-source tool generating phone sequences from czech text and time-aligning them with audio. Low architecture complexity makes t

phonetics speech recognition czech audio alignment pronunciation generator

发现论文，激发创造

TIPAA-SSL: 基于自监督学习和知识迁移的文本无关电话音频对齐

基于音素识别、表示学习和知识迁移，本文提出了一种新颖的文本无关音频对齐方法，利用自监督模型、维度降低模型和基于帧级音素分类器的强制对齐标签来产生多语言语音学表示，取得了优于传统方法的统计指标表现，在语言学习和语音处理系统中有应用意义。

May, 2024

使用削减对齐和音位对应模式进行快速自动音系重建的新框架

本文介绍了一种新的计算机模型，该模型结合了最先进的自动化序列比对技术和新颖的语音对准分析技术以及声音对应模式检测技术，可用于监督祖先语言的单词形态学恢复，测试结果表明该方法既快速又易于实现和扩展。

Apr, 2022

使用大型数据集探索单语音频 Transformer 在捷克语自动语音识别中的能力

本文介绍了在大数据集上通过预训练机器学习模型和微调等方法，利用无标签语音数据和有标签语音数据对 Wav2Vec 2.0 进行 ASR 系统的训练及评估，并取得成功的实验结果。

Jun, 2022

捷克语的神经生成：数据和基线

该研究提供了一份重点研究餐厅场景下，针对捷克语言的 NLG 数据集，并介绍了针对此语言难点的两种模型，分别为使用神经语言模型在词汇化时选择正确的变形形式以及使用序列到序列模型生成词元和形态标记的交替序列，再由形态生成器进行变形。

Oct, 2019

MALACH 项目中基于 Transformer 的正式与口语捷克语自动语音识别

本文研究以最新的端到端自监督音频 Transformer 技术为基础，探讨非正式口语形式对 Wav2Vec 2.0 模型性能和转录正式文本的影响，并提出具有正式和非正式语言模型的训练方案及评测结果。

Jun, 2022

自动音素转写的零样本学习

本研究使用零样本学习的方法解决语言无训练数据情况下语音转写的挑战，将语音音素分解成相应的发音属性，结合定制的声学模型，实现对目标语言中未知音素的识别，评估结果表明，该方法比传统多语言模型的平均音素误差率提高了 7.7%。

Feb, 2020

通用手机：用于鲁棒声学建模的多语言数据集

本研究介绍了多语言语音数据集 Common Phone，用其于 Wav2Vec 2.0 音频模型的参数训练并取得了 18.1% 的识别率，提供了可靠的注音，从而缩小了声学模型应用于实际场景的差距。

Jan, 2022

ELLA-V: 稳定的神经编码语言建模与对齐引导的序列重排

该研究提出了 ELLAA-V，一种基于语言模型的零样本文本转语音框架，可以在音素级别实现合成音频的细粒度控制，并且在准确性和稳定性方面优于现有方法。

Jan, 2024

一种基于贪心发音选择框架的声学数据驱动的词汇表学习

本文提出了一种从转录数据中自动获得单词发音的系统，重点解决了从词汇表中删除词条的问题，实验结果表明我们提出的框架可以学习一个词汇表，在测试数据上的语音识别错误率 (WER) 性能接近于专家词汇表，而且比基于 G2P 或基于发音概率修剪标准构建的词典更好。

Jun, 2017

Whistle: 数据高效的多语言和跨语音识别模型：通过弱语音监督方法实现

本文研究了预训练与弱语音监督的方法，提出了一种名为 Whistle 的数据有效 MCL-ASR 方法，通过国际音标转写，构建了一个基于 CommonVoice 数据集的实验平台，实验证明基于音素的模型在多语言语音识别中具有更好的性能和高数据效率。

Jun, 2024