基于视觉化支撑的未转录语音关键词预测学习

Mar, 2017

基于视觉化支撑的未转录语音关键词预测学习

Visually grounded learning of keyword prediction from untranscribed speech

Herman Kamper, Shane Settle, Gregory Shakhnarovich, Karen Livescu

TL;DR这篇论文中，采用图像与未翻译口头说明的组合，研究计算机视觉系统是否可以用于获取语音的文本标签，并使用图片到词语多标签视觉分类器标记图像的软文本标签。然后，训练神经网络将语音映射到这些软目标。结果表明，语音识别系统能够预测话语中出现的单词，并作为口头词组分类器，同时还经常混淆语义相关的词，例如 “男人” 和 “人” ，使其效果更好作为语义关键词识别器。

Abstract

During language acquisition, infants have the benefit of visual cues to ground spoken language. Robots similarly have access to audio and visual sensors. Recent work has shown that images and spoken captions can

language acquisition visual cues computer vision systems neural network semantic keyword spotter

发现论文，激发创造

视觉引导的归纳偏置在口语学习中的应用

本文讨论了一种利用多任务学习的方式，在端到端的语言处理中利用已有的转录发音从而带来图像检索表现的一个显著的提高，这是由于转录发音为模型提供了很强的归纳偏置，这些是通过匹配发音字幕、语音和文本、以及文本和图像等三个任务来实现的。

Dec, 2018

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在 Flickr8k 音频字幕语料库上实现了最新的结果。

Sep, 2019

使用语音到图像检索的语言学习

本研究提出了一种改进的神经网络方法，借助多层 GRU、重要性采样、循环学习率、向量自我注意力等结构，实现了从口语训练中创建基于视觉的句子嵌入，相比较前人工作取得了显著提升的图像字幕检索性能，并且揭示了模型的哪些层更适合识别输入中的单词。

Sep, 2019

基于文本的视觉场景口语理解监督

这篇研究论文主要研究了通过视觉模型来对口语语音进行语义理解，在低资源语言中通过传统的管道方法和端到端方法来提高模型性能，并比较发现管道方法比端到端方法更适用于足够的文本情况下，而翻译可以有效地代替转录，但需要更多的数据才能获得类似的结果。

Oct, 2020

仅使用图像进行语音翻译

通过现有的图像字幕系统，将图像与文本相连接，实现语音音频与文本之间的直接映射，从而扩展了视觉语音模型的连接方式。本研究在一个低资源语言 Yorùbá 上，提出了一种 Yorùbá- 英语语音翻译模型，利用预训练组件以实现在低资源环境中的学习，并通过使用能产生多样的图像字幕的解码方案来限制过拟合现象。结果显示预测的翻译捕捉到了口头音频的主要语义，尽管形式上更简单且更简短。

Jun, 2024

无监督文本 grounding: 将词语与图像概念相连

本研究提出了一种基于深度学习的无监督的文本 grounding（文本与图像上物体的对应关系）方法，并在 ReferIt Game 数据集与 Flickr30k 数据集上分别超过了基线 7.98% 和 6.96%。

Mar, 2018

SpeechCLIP：将语音与预训练的视觉和语言模型相融合

本文提出了一种名为 SpeechCLIP 的新框架，通过图像将语音和文本结合起来，从而改善语音模型的性能，无需直接从转录中进行监督。SpeechCLIP 使用先进的预训练 HuBERT 和 CLIP 模型，并通过配对的图像和口头字幕进行对齐，实现了零样本语音 - 文本检索和语音中关联关键字的提取。

Oct, 2022

用文字转录结果定位物体检测

本文提出一种自动从指示视频中提取实体 - 视频帧对的方法，以用于创建任务特定的训练集元算法。

Jun, 2019

语音和图像的多模态单样本学习

研究机器人如何通过视觉和语音标签来学习多模态单样本匹配任务，并且提出了几种基线和高级模型，最后通过在配对的语音和视觉数字数据集上进行实验说明了 Siamese 卷积神经网络在 11 种跨模态匹配方面的卓越性能。

Nov, 2018

从自然语言监督中学习可转移的视觉模型

通过预测图像与文本配对来预训练计算机视觉系统，使其可以从自然语言描述中直接学习视觉概念，从而实现零样本迁移，并在多个计算机视觉任务上展现出竞争力。

Feb, 2021