基于视觉的子词语音单元发现探索
本文中提出了一种通过将向量量化层整合到基于视觉语音的神经模型中来学习离散语言单元的方法。我们展示了我们的方法可以捕捉到单词级别和子词级别的单元,我们还将子词单元应用到了 ZeroSpeech 2019 挑战中,取得了较好的结果。
Nov, 2019
本文研究了如何在视觉语音循环神经网络中表示和识别单词,使用门控方法分析神经网络所学单词表征的正确性和词汇竞争过程中的单词激活方式,其结果表明当网络能接触到目标单词第一个音素时才能正确识别单词表征。
Sep, 2019
本文提出了一种通过语音信号和图像区域的语义相关性,发现连续语音信号中类似于单词的语音单元,并将其与图像区域相关联的方法。这个模型能够有效地实现一种口语语言习得的形式,不使用常规的自动语音识别或文本传输,同时丰富学习词汇的语义含义及图像联系。
Jan, 2017
本文提出了一种可视化感知的口语术语探测方法,通过对自注意力头的训练与分析发现,在自然图像与口语字幕关联的模型中具有强大的单词分割和聚类能力,并在 Buckeye 单词分割和 ZeroSpeech 口语术语探测任务上超过了所有已发表的现有方法。
Mar, 2022
本文针对语音与图像之间的语义关联关系,探讨了不需要传统监督方式的神经网络模型,并使用了 Places 205 和 ADE20k 数据集来验证模型,在不太需要标签、分割或模态对齐的情况下可以实现语音和图像的自动检索、详细定位以及进行时间、空间上的隐含的物体和单词检测。
Apr, 2018
该研究提出了一种直接合成流利、自然发音的图像口述说明语音的模型,该模型不需要自然语言文本作为中间表示或监督来源,而是通过一组离散的、子词语音单元将图像说明模块和语音合成模块连接起来,这些语音单元是通过自我监督的视觉定位任务发现的。研究人员在 Flickr8k 口述说明数据集上进行了实验,并针对流行的 MSCOCO 数据集收集了一组新的口述说明语音语料库,证明了所生成的说明语音也捕捉到了它们所描述的图像的多样视觉语义。研究人员研究了几种不同的中间语音表示,并通过实验证明,这些表示必须满足几个重要的属性,才能作为文本的替代品。
Dec, 2020
本研究探讨了深度神经网络在处理时间依赖性信号方面的表现,结果显示语音模型会丢弃特定说话人的噪声信号,而保留与任务相关的语音和音素信息,并在后续层级中出现更高层次的概念表示,此外还展示了深度学习在不同时刻从输入中提取任务相关特征,以实现不变语音识别的能力。
Mar, 2020
本文提出了一种自我监督语音模型训练方法,可以自动检测语音中的音节边界并对同一音节进行聚类,该模型不仅在英语上表现优异且能够泛化到其他语言,实现了零样本学习,且在四种语言上实现了词分割任务的零样本迁移,胜过了之前的最佳成果。
May, 2023
本文主要介绍一种基于 self-supervised 网络和动态规划的新颖 unsupervised 语音分割方法,其中采用自底部方法探索单元发现,从而得到符号感知的单语音分割结果。该方法在英语和其他语言上都表现出令人满意的结果,并且在 ZeroSpeech 基准上优于以前的系统。
Feb, 2022