该研究探讨了在低资源情况下,通过比较纯音频和混合多模态技术的音频识别解决方案,发现纯音频解决方案是没有自动语音识别系统的情况下的可行选项,并且混合多模态解决方案获得了最佳结果。
Jul, 2023
本研究采用不依赖音素词典的新方法,通过仅包含高频英语词汇的语料库,在没有配对语音和文字数据的情况下,实现了近 20% 的词错误率,并证明了基于联合语音到语音和文本到文本的标记填充技术,使得无监督语音识别系统的性能超过了直接分布匹配方法。
Jun, 2024
这篇论文研究了使用无监督学习的方法,包括语音分割,语音信号到文本的映射和半监督模型来实现自动语音识别,以识别从语音数据中可以学到的极限并理解语音识别的最小要求,目的是为了在开发低资源语言的语音识别系统时优化资源和努力。
Jun, 2021
本文介绍了一种基于贝叶斯建模框架和语音嵌入向量的无监督语音识别方法,针对多个讲话者的语音数据进行了初步探索,最终通过顶层一致性分割和底层音节边界检测方法得出更好的单人和多人语音聚类结果。
Jun, 2016
这篇论文中,采用图像与未翻译口头说明的组合,研究计算机视觉系统是否可以用于获取语音的文本标签,并使用图片到词语多标签视觉分类器标记图像的软文本标签。然后,训练神经网络将语音映射到这些软目标。结果表明,语音识别系统能够预测话语中出现的单词,并作为口头词组分类器,同时还经常混淆语义相关的词,例如 “男人” 和 “人” ,使其效果更好作为语义关键词识别器。
Mar, 2017
该论文提出了一种基于对齐模块输出伪文本和另一个合成模块使用伪文本进行训练和实际文本进行推断的无监督文本转语音综合系统,可以在每种语言的 10-20 小时语音中实现与监督系统相当的性能,并开展了对文本单元和声码器影响的研究。
Mar, 2022
本文提出了一种无需转录或语言监督的训练语音翻译的方法,使用自监督无监督组合的离散量化自动编码器进行训练,然后使用序列到序列模型将源语言语音直接映射到目标语言的离散表示上,最终实现无需先训练或辅助步骤即可直接生成目标语音;该方法是第一次在未经转录的未知语言之间进行纯语音翻译的研究。
Oct, 2019
提供了一种基于无监督贝叶斯模型的语音分割以及聚类算法,通过将有潜力的单词段嵌入固定维度的声学向量空间,并在此空间创建全词声学模型以及同时执行分割来实现输入语音基于单词类型的完整无人监督标记,模型在连接数字识别任务中取得约 20% 的错误率,优于基于 HMM 的系统。
Mar, 2016
本文研究无监督语音识别方法,提出由语音向量表示、语义嵌入和无监督转换的框架,这一框架可用于缺乏音频文本对齐数据和受监督方法无法应用的低资源语言。
Mar, 2018
本文利用无监督语音识别、机器翻译与语音合成技术,探讨实现无标注数据建立语音翻译系统的方法,通过管道方法或生成伪标签,对端到端语音翻译模型进行训练。同时,提出一种无监督域自适应方法,能够提供一定的性能提升。实验结果表明,本文提出的无监督语音翻译方法,在 Libri-Trans 基准测试的 BLEU 分数上超过以前报告的无监督效果的 3.2 个点,在 CoVoST2 数据集上,本文的最佳系统相对于最佳监督学习的端到端模型(无预训练),在五个语种(X-En)上平均提高 5.0 个 BLEU 分数。在 MuST-C 和 CVSS 基准测试上,本文也取得了有竞争力的结果。
Oct, 2022