基于视觉的子词语音单元发现探索

Feb, 2019

基于视觉的子词语音单元发现探索

Towards Visually Grounded Sub-Word Speech Unit Discovery

David Harwath, James Glass

TL;DR研究了如何使用卷积神经网络模型来关联原始语音波形和自然图像场景，探究了解释性的子词语音单位是如何出现的，可以深层次地理解中间层的激活模式，揭示出 Diphone 边界被表浅提取，表明对于字词的识别中该模型在利用这些事件，并提出了多个实验来研究这些事件所编码的信息。

Abstract

In this paper, we investigate the manner in which interpretable sub-word speech units emerge within a convolutional neural network model trained to associate raw speech waveforms with semantically related natural image scenes. We show how →

interpretable sub-word speech units convolutional neural network diphone boundaries word recognition information encoding

发现论文，激发创造

从视觉语言到学习层级离散语言单元

本文中提出了一种通过将向量量化层整合到基于视觉语音的神经模型中来学习离散语言单元的方法。我们展示了我们的方法可以捕捉到单词级别和子词级别的单元，我们还将子词单元应用到了 ZeroSpeech 2019 挑战中，取得了较好的结果。

Nov, 2019

视觉语言模型中的单词识别、竞争和激活

本文研究了如何在视觉语音循环神经网络中表示和识别单词，使用门控方法分析神经网络所学单词表征的正确性和词汇竞争过程中的单词激活方式，其结果表明当网络能接触到目标单词第一个音素时才能正确识别单词表征。

Sep, 2019

从联合音视频分析中学习类似单词的单位

本文提出了一种通过语音信号和图像区域的语义相关性，发现连续语音信号中类似于单词的语音单元，并将其与图像区域相关联的方法。这个模型能够有效地实现一种口语语言习得的形式，不使用常规的自动语音识别或文本传输，同时丰富学习词汇的语义含义及图像联系。

Jan, 2017

基于视觉反馈的自监督语音模型中的词语发现

本文提出了一种可视化感知的口语术语探测方法，通过对自注意力头的训练与分析发现，在自然图像与口语字幕关联的模型中具有强大的单词分割和聚类能力，并在 Buckeye 单词分割和 ZeroSpeech 口语术语探测任务上超过了所有已发表的现有方法。

Mar, 2022

从原始感官输入中联合发现视觉对象和口语单词

本文针对语音与图像之间的语义关联关系，探讨了不需要传统监督方式的神经网络模型，并使用了 Places 205 和 ADE20k 数据集来验证模型，在不太需要标签、分割或模态对齐的情况下可以实现语音和图像的自动检索、详细定位以及进行时间、空间上的隐含的物体和单词检测。

Apr, 2018

使用学习的分段单元进行无文本图像合成语音

该研究提出了一种直接合成流利、自然发音的图像口述说明语音的模型，该模型不需要自然语言文本作为中间表示或监督来源，而是通过一组离散的、子词语音单元将图像说明模块和语音合成模块连接起来，这些语音单元是通过自我监督的视觉定位任务发现的。研究人员在 Flickr8k 口述说明数据集上进行了实验，并针对流行的 MSCOCO 数据集收集了一组新的口述说明语音语料库，证明了所生成的说明语音也捕捉到了它们所描述的图像的多样视觉语义。研究人员研究了几种不同的中间语音表示，并通过实验证明，这些表示必须满足几个重要的属性，才能作为文本的替代品。

Dec, 2020

使用离散化语音单元探索语音识别、翻译和理解：一项比较研究

通过对离散单元在端到端语音处理模型中应用的系统和全面的探索，实验证明离散单元在几乎所有设置中都可以取得相当好的结果。

Sep, 2023

不变语音识别中的解缠

本研究探讨了深度神经网络在处理时间依赖性信号方面的表现，结果显示语音模型会丢弃特定说话人的噪声信号，而保留与任务相关的语音和音素信息，并在后续层级中出现更高层次的概念表示，此外还展示了深度学习在不同时刻从输入中提取任务相关特征，以实现不变语音识别的能力。

Mar, 2020

基于视觉绑定、自监督的语音模型中的音节发现和跨语言泛化

本文提出了一种自我监督语音模型训练方法，可以自动检测语音中的音节边界并对同一音节进行聚类，该模型不仅在英语上表现优异且能够泛化到其他语言，实现了零样本学习，且在四种语言上实现了词分割任务的零样本迁移，胜过了之前的最佳成果。

May, 2023

动态规划和自监督评分在已发现的音素单元上的词语分割

本文主要介绍一种基于 self-supervised 网络和动态规划的新颖 unsupervised 语音分割方法，其中采用自底部方法探索单元发现，从而得到符号感知的单语音分割结果。该方法在英语和其他语言上都表现出令人满意的结果，并且在 ZeroSpeech 基准上优于以前的系统。

Feb, 2022