语音和图像的多模态单样本学习

Nov, 2018

Multimodal One-Shot Learning of Speech and Images

Ryan Eloff, Herman A. Engelbrecht, Herman Kamper

TL;DR研究机器人如何通过视觉和语音标签来学习多模态单样本匹配任务，并且提出了几种基线和高级模型，最后通过在配对的语音和视觉数字数据集上进行实验说明了 Siamese 卷积神经网络在 11 种跨模态匹配方面的卓越性能。

Abstract

Imagine a robot is shown new concepts visually together with spoken tags, e.g. "milk", "eggs", "butter". After seeing one paired audio-visual example per class, it is shown a new set of unseen instances of these objects, and asked to pick the "milk". Without receiving any hard labels, could it learn to match the new continuous speech input to the correct vis

multimodal learning siamese networks one-shot learning speech recognition computer vision

发现论文，激发创造

多模态帮助单模态：利用多模态模型进行跨模态少样本学习

通过跨模态训练，结合视觉和语言信息，利用少量的训练样本和类名，建立了一个更好的狗狗分类器，并构建了第一个音视频少样本学习基准。

Jan, 2023

多模态信息瓶颈下的非配对式图像语音合成

本篇研究使用深度生成模型解决一种新的问题，即无配对数据下，跨模气物体生成的问题，该研究提出了一种跨模态生成方法，称为 skip-modal generation。通过学习共享模态下的多模概念瓶颈方法，该法实现了基于图片生成语音的跨模态生成，并在此基础上改进了传统的跨模态生成方法，证明了其在提高数据效率方面的优点。

Aug, 2019

低资源环境下基于视觉支撑的少样本词汇学习

本研究提出了一种视觉语音模型，能够通过少量的图像和单词样本来学习新词汇及其视觉描述，并通过多模式少量样本的学习在低资源语言 Yoruba 中取得更好的表现。

Jun, 2023

语音与图像的深度多模态语义嵌入

本文提出了一种模型，其将图像和相关的口头描述作为输入，并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号，并采用嵌入和对准模型将两个网络联系在一起，以学习跨两种模态的联合语义空间，最终在 Flickr8k 数据集上使用图像搜索和注释任务评估了我们的模型。

Nov, 2015

视觉为基础的少样本词汇习得

本文提出了一个视觉和语音相融合的模型，用于从仅有几个词 - 图像样本对中学习新单词及其视觉表示。我们的方法包括从大量未标记的语音和图像中，使用给定的词 - 图像示例对挖掘新的无监督词 - 图像训练对，并使用单词到图像的关注机制来确定词 - 图像相似性。新模型的性能比现有方法更好，且需要更少的样本数。

May, 2023

基于视觉化支撑的未转录语音关键词预测学习

这篇论文中，采用图像与未翻译口头说明的组合，研究计算机视觉系统是否可以用于获取语音的文本标签，并使用图片到词语多标签视觉分类器标记图像的软文本标签。然后，训练神经网络将语音映射到这些软目标。结果表明，语音识别系统能够预测话语中出现的单词，并作为口头词组分类器，同时还经常混淆语义相关的词，例如 “男人” 和 “人” ，使其效果更好作为语义关键词识别器。

Mar, 2017

视频理解作为机器翻译

本文介绍了在大规模多模式视频数据集上的自我监督学习的发展；提出了一种基于生成模型的方法，以翻译问题的形式解决了这一问题，并将其应用于多种下游视频理解任务中。结果表明，本方法在性能上优于基于对比度度量学习的方法。

Jun, 2020

多模态原型网络用于少样本学习

该论文提出了一种跨模态特征生成框架，利用文本数据来弥补计算机视觉任务中数据稀缺的不足，进而提高分类结果，并在实验中证明该方法的有效性。

Nov, 2020

一次性学习的匹配网络

本研究使用深度神经网络和度量学习的思想，建立了一种学习新概念的框架，从而不需要微调以适应新的类别类型，并在视觉和语言任务中定义了一次性学习问题，实验结果表明，在 Imagenet 数据集上，准确率从 87.6% 提高到 93.2%，在 Omniglot 数据集上，准确率从 88.0% 提高到 93.8%。

Jun, 2016

使用冻结语言模型的多模式小样本学习

通过对齐图像和标题数据，我们训练一个视觉编码器将每个图像表示为一系列连续的嵌入，并使用预先训练的冻结语言模型来生成相应的标题，从而将这种少量样本学习能力转移至多模态设置。该系统是一种多模态少样本学习模型，具有学习各种新任务的惊人能力，如用只有少数几个样例进行视觉问答，或者利用外部知识。

Jun, 2021