低资源环境下基于视觉支撑的少样本词汇学习

Jun, 2023

低资源环境下基于视觉支撑的少样本词汇学习

Visually grounded few-shot word learning in low-resource settings

Leanne Nortje, Dan Oneata, Herman Kamper

TL;DR本研究提出了一种视觉语音模型，能够通过少量的图像和单词样本来学习新词汇及其视觉描述，并通过多模式少量样本的学习在低资源语言 Yoruba 中取得更好的表现。

Abstract

We propose a visually grounded speech model that learns new words and their visual depictions from just a few word-image example pairs. Given a set of test images and a spoken query, we ask the model which image depicts the query word. Previous work has simplified this →

visually grounded speech model few-shot learning multimodal learning word-to-image attention mechanism yoruba

发现论文，激发创造

视觉为基础的少样本词汇习得

本文提出了一个视觉和语音相融合的模型，用于从仅有几个词 - 图像样本对中学习新单词及其视觉表示。我们的方法包括从大量未标记的语音和图像中，使用给定的词 - 图像示例对挖掘新的无监督词 - 图像训练对，并使用单词到图像的关注机制来确定词 - 图像相似性。新模型的性能比现有方法更好，且需要更少的样本数。

May, 2023

仅使用图像进行语音翻译

通过现有的图像字幕系统，将图像与文本相连接，实现语音音频与文本之间的直接映射，从而扩展了视觉语音模型的连接方式。本研究在一个低资源语言 Yorùbá 上，提出了一种 Yorùbá- 英语语音翻译模型，利用预训练组件以实现在低资源环境中的学习，并通过使用能产生多样的图像字幕的解码方案来限制过拟合现象。结果显示预测的翻译捕捉到了口头音频的主要语义，尽管形式上更简单且更简短。

Jun, 2024

YFACC: 通过视觉基础定位实现跨语关键字本地化的 Yorùbá 语言语音和图像数据集

本文介绍了一种基于注意力机制的 VGS 模型，通过将图像与 Yorùbá 语言的话语配对并自动标记英文视觉标签，实现了跨语言关键词定位，以解决新兴语种的语音系统数据不足的问题。

Oct, 2022

语音和图像的多模态单样本学习

研究机器人如何通过视觉和语音标签来学习多模态单样本匹配任务，并且提出了几种基线和高级模型，最后通过在配对的语音和视觉数字数据集上进行实验说明了 Siamese 卷积神经网络在 11 种跨模态匹配方面的卓越性能。

Nov, 2018

使用冻结语言模型的多模式小样本学习

通过对齐图像和标题数据，我们训练一个视觉编码器将每个图像表示为一系列连续的嵌入，并使用预先训练的冻结语言模型来生成相应的标题，从而将这种少量样本学习能力转移至多模态设置。该系统是一种多模态少样本学习模型，具有学习各种新任务的惊人能力，如用只有少数几个样例进行视觉问答，或者利用外部知识。

Jun, 2021

语言引导的少样本语义分割

通过语言信息进行语言指导的少样本语义分割，使用视觉 - 语言预训练模型和遮罩优化来生成高质量伪语义遮罩，引入分布式原型监督方法和互补相关匹配模块来指导模型挖掘支持和查询图像的精确语义关系。在两个基准数据集上的实验表明，我们的方法为语言指导的少样本语义分割建立了新的基准，并达到了与最近的视觉指导方法竞争的结果。

Nov, 2023

多重语义下走向少样本学习的初步探索

本研究关注于使用额外语义信息以便在少量样本时进行图像分类，研究表明组合多种语义信息可以带来更好的效果。

Jun, 2019

使用语音到图像检索的语言学习

本研究提出了一种改进的神经网络方法，借助多层 GRU、重要性采样、循环学习率、向量自我注意力等结构，实现了从口语训练中创建基于视觉的句子嵌入，相比较前人工作取得了显著提升的图像字幕检索性能，并且揭示了模型的哪些层更适合识别输入中的单词。

Sep, 2019

无监督的视频视觉定位词汇翻译

利用视觉基础方法，通过学习不成对指导视频中讲解的语言产生共同的视觉表示方法。我们可以将这种共同的表示方法用于单词映射和跨语言翻译，尤其是对于 “视觉” 单词。同时，我们的基于视觉 - 文本的转换算法 MUVE 提高了非监督文本翻译技术的性能，特别是处理少见单词和低资源语言数据时。

Mar, 2020

利用图像描述符的语言模型是强的少样本视频语言学习器

本文提出了通过图像和语言模型进行少样本学习的视频语言学习器（VidIL），它在视频描述、视频问答、视频描述检索和视频未来事件预测等多种视频语言任务中表现出强大的性能，并且能够在使用上下文中的几个例子来生成目标输出，进而大大提高视频未来事件预测的准确率。

May, 2022