关键词spoken language recognition
搜索结果 - 3
- 通过多标签分类实现有效的口语语言识别
本文主要讲述了如何利用卷积神经网络构建高效的口语语种识别模型,并在训练时采用多标签的方式来应对非目标语种的识别,实验结果表明,该模型相比当前最先进的方法在速度上有数量级的提升,并且在多标签分类任务中更加稳健。
- 一种基于层次判别式 PLDA 的语音识别模型
本文介绍了一种基于概率线性判别分析模型的口语语言识别方法,该模型通过提取音频样本的嵌入向量得出语音信号的语言,并基于层次方法和最大熵准则进行训练,结果表明该识别方法可以用于高度相关的语言中并具有鲁棒性。
- VoxLingua107:一个口语识别数据集
本文研究了利用网络音频数据自动识别口语语言的任务。通过从特定语言的 Wikipedia 数据中生成半随机搜索短语,并从 YouTube 中检索视频来提取具有语音的视频片段,并使用语音活动检测和说话人分离提取包含语音的视频片段,最终构建了可用