使用语音到图像检索的语言学习

Sep, 2019

Language learning using Speech to Image retrieval

Danny Merkx, Stefan L. Frank, Mirjam Ernestus

TL;DR本研究提出了一种改进的神经网络方法，借助多层 GRU、重要性采样、循环学习率、向量自我注意力等结构，实现了从口语训练中创建基于视觉的句子嵌入，相比较前人工作取得了显著提升的图像字幕检索性能，并且揭示了模型的哪些层更适合识别输入中的单词。

Abstract

Humans learn language by interaction with their environment and listening to other humans. It should also be possible for computational models to learn language directly from speech but so far most approaches require text. We improve on existing neural network approaches to create visu

language learning computational models neural networks image-caption retrieval word recognition

发现论文，激发创造

语言表征在视觉语音信号模型中的应用

基于视觉基础的言语知觉模型，使用多层循环高速公路网络对时间性建模，能够从输入信号中提取形式和基于含义的语言学知识，并分析了训练模型不同组件使用的表示方式。在表示层次结构的上升过程中，语义方面的编码越来越丰富，而语言输入中形式相关方面的编码在初始增加后呈现平稳或下降的趋势。

Feb, 2017

基于视觉化支撑的未转录语音关键词预测学习

这篇论文中，采用图像与未翻译口头说明的组合，研究计算机视觉系统是否可以用于获取语音的文本标签，并使用图片到词语多标签视觉分类器标记图像的软文本标签。然后，训练神经网络将语音映射到这些软目标。结果表明，语音识别系统能够预测话语中出现的单词，并作为口头词组分类器，同时还经常混淆语义相关的词，例如 “男人” 和 “人” ，使其效果更好作为语义关键词识别器。

Mar, 2017

通过图片学习语言

该研究提出了 Imaginet 模型，该模型可以从耦合文本和视觉输入中学习语言表达的视觉基础表示，采用多任务目标，并从视觉场景描述中获取单词的含义表达，并学习有效地利用语义解释多词短语的顺序结构。

Jun, 2015

视觉引导的归纳偏置在口语学习中的应用

本文讨论了一种利用多任务学习的方式，在端到端的语言处理中利用已有的转录发音从而带来图像检索表现的一个显著的提高，这是由于转录发音为模型提供了很强的归纳偏置，这些是通过匹配发音字幕、语音和文本、以及文本和图像等三个任务来实现的。

Dec, 2018

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在 Flickr8k 音频字幕语料库上实现了最新的结果。

Sep, 2019

学习基于图像的句子表示

我们介绍了训练在监督图像字幕语料库上的多种模型，用于预测给定字幕的图像特征，以执行句子表示接地。我们训练了一个接地的句子编码器，在 Coco 字幕和图像检索方面取得了良好的性能，随后展示了该编码器可以成功地转移到各种 NLP 任务，与仅文本模型相比，性能有所提高。最后，我们分析了接地的贡献，表明该系统学习到的单词嵌入优于非接地的单词嵌入。

Jul, 2017

基于物体和动作意象的理解语言习得

通过深度学习方法研究自然语言处理，通过训练紧密连接的编码器 / 解码器，在传统的指示语言环境和对比学习环境中开发了一个专用于视觉数据表示的私有语言，并且通过神经机器翻译和随机森林分类的分类层将符号表示转化为类别标签。通过两个实验，旨在进行物体识别和动作识别，研究了从真实图像中生成的草图以及从 3D 运动捕获系统生成的 2D 轨迹，通过梯度加权类激活映射（Grad-CAM）方法和 t-SNE 方法解释了学习到的符号和嵌入。

Sep, 2023

语音与图像的深度多模态语义嵌入

本文提出了一种模型，其将图像和相关的口头描述作为输入，并找到两种模态之间的对应关系。使用一对卷积神经网络在单词级别模拟视觉对象和语音信号，并采用嵌入和对准模型将两个网络联系在一起，以学习跨两种模态的联合语义空间，最终在 Flickr8k 数据集上使用图像搜索和注释任务评估了我们的模型。

Nov, 2015

从音素到图像：一种循环神经模型中的表征层次结构，用于视觉语言学习

基于堆叠门控循环神经网络的视觉语言学习模型，可以通过音素序列描述的图像描述，学习预测图像的视觉特征，并以层级结构表示语言信息。

Oct, 2016

仅使用图像进行语音翻译

通过现有的图像字幕系统，将图像与文本相连接，实现语音音频与文本之间的直接映射，从而扩展了视觉语音模型的连接方式。本研究在一个低资源语言 Yorùbá 上，提出了一种 Yorùbá- 英语语音翻译模型，利用预训练组件以实现在低资源环境中的学习，并通过使用能产生多样的图像字幕的解码方案来限制过拟合现象。结果显示预测的翻译捕捉到了口头音频的主要语义，尽管形式上更简单且更简短。

Jun, 2024