从联合音视频分析中学习类似单词的单位

Jan, 2017

从联合音视频分析中学习类似单词的单位

Learning Word-Like Units from Joint Audio-Visual Analysis

David Harwath, James R. Glass

TL;DR本文提出了一种通过语音信号和图像区域的语义相关性，发现连续语音信号中类似于单词的语音单元，并将其与图像区域相关联的方法。这个模型能够有效地实现一种口语语言习得的形式，不使用常规的自动语音识别或文本传输，同时丰富学习词汇的语义含义及图像联系。

Abstract

Given a collection of images and spoken audio captions, we present a method for discovering word-like acoustic units in the continuous speech signal and grounding them to semantically relevant image regions. For example, our model is able to detect spoken instances of the word 'lighthouse' within an utterance and associate them with image regions containing

audio-caption speech recognition image grounding language acquisition semantics

发现论文，激发创造

从原始感官输入中联合发现视觉对象和口语单词

本文针对语音与图像之间的语义关联关系，探讨了不需要传统监督方式的神经网络模型，并使用了 Places 205 和 ADE20k 数据集来验证模型，在不太需要标签、分割或模态对齐的情况下可以实现语音和图像的自动检索、详细定位以及进行时间、空间上的隐含的物体和单词检测。

Apr, 2018

使用学习的分段单元进行无文本图像合成语音

该研究提出了一种直接合成流利、自然发音的图像口述说明语音的模型，该模型不需要自然语言文本作为中间表示或监督来源，而是通过一组离散的、子词语音单元将图像说明模块和语音合成模块连接起来，这些语音单元是通过自我监督的视觉定位任务发现的。研究人员在 Flickr8k 口述说明数据集上进行了实验，并针对流行的 MSCOCO 数据集收集了一组新的口述说明语音语料库，证明了所生成的说明语音也捕捉到了它们所描述的图像的多样视觉语义。研究人员研究了几种不同的中间语音表示，并通过实验证明，这些表示必须满足几个重要的属性，才能作为文本的替代品。

Dec, 2020

从视觉语言到学习层级离散语言单元

本文中提出了一种通过将向量量化层整合到基于视觉语音的神经模型中来学习离散语言单元的方法。我们展示了我们的方法可以捕捉到单词级别和子词级别的单元，我们还将子词单元应用到了 ZeroSpeech 2019 挑战中，取得了较好的结果。

Nov, 2019

基于视觉化支撑的未转录语音关键词预测学习

这篇论文中，采用图像与未翻译口头说明的组合，研究计算机视觉系统是否可以用于获取语音的文本标签，并使用图片到词语多标签视觉分类器标记图像的软文本标签。然后，训练神经网络将语音映射到这些软目标。结果表明，语音识别系统能够预测话语中出现的单词，并作为口头词组分类器，同时还经常混淆语义相关的词，例如 “男人” 和 “人” ，使其效果更好作为语义关键词识别器。

Mar, 2017

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在 Flickr8k 音频字幕语料库上实现了最新的结果。

Sep, 2019

基于视觉反馈的自监督语音模型中的词语发现

本文提出了一种可视化感知的口语术语探测方法，通过对自注意力头的训练与分析发现，在自然图像与口语字幕关联的模型中具有强大的单词分割和聚类能力，并在 Buckeye 单词分割和 ZeroSpeech 口语术语探测任务上超过了所有已发表的现有方法。

Mar, 2022

视觉为基础的少样本词汇习得

本文提出了一个视觉和语音相融合的模型，用于从仅有几个词 - 图像样本对中学习新单词及其视觉表示。我们的方法包括从大量未标记的语音和图像中，使用给定的词 - 图像示例对挖掘新的无监督词 - 图像训练对，并使用单词到图像的关注机制来确定词 - 图像相似性。新模型的性能比现有方法更好，且需要更少的样本数。

May, 2023

基于视觉的子词语音单元发现探索

研究了如何使用卷积神经网络模型来关联原始语音波形和自然图像场景，探究了解释性的子词语音单位是如何出现的，可以深层次地理解中间层的激活模式，揭示出 Diphone 边界被表浅提取，表明对于字词的识别中该模型在利用这些事件，并提出了多个实验来研究这些事件所编码的信息。

Feb, 2019

音视觉神经语法学习

通过从视觉感知语音进行短语结构识别的研究，我们提出了语音 - 视觉神经语法学习器（AV-NSL），通过听音和看图，无需接触文本即可学习短语结构，训练集是配对的图像和口述字幕，AV-NSL 展示出推断有意义的短语结构的能力，对英语和德语都可以与自然监督的文本解析器推导出的结构相媲美，研究结果扩展了无监督语言习得和基于场景的语法识别的以前研究，并提出了一种桥接两个主题的方法。

Oct, 2023

看、听、学习

探索了音视频流之间对应关系，并提出了利用该信息实现的自我监督视听学习任务，结果表明该方法成功解决了问题，并展现出良好的视听表征，可以将其应用于声音分类、物体定位和细粒度识别任务。

May, 2017