通过图片学习语言

ACLJun, 2015

Learning language through pictures

Grzegorz Chrupała, Ákos Kádár, Afra Alishahi

TL;DR该研究提出了 Imaginet 模型，该模型可以从耦合文本和视觉输入中学习语言表达的视觉基础表示，采用多任务目标，并从视觉场景描述中获取单词的含义表达，并学习有效地利用语义解释多词短语的顺序结构。

Abstract

We propose imaginet, a model of learning visually grounded representations of language from coupled textual and visual input. The model consists of two Gated Recurrent Unit networks with shared word embeddings, a

imaginet visually grounded representations gated recurrent unit networks multi-task objective semantic interpretation

发现论文，激发创造

使用语音到图像检索的语言学习

本研究提出了一种改进的神经网络方法，借助多层 GRU、重要性采样、循环学习率、向量自我注意力等结构，实现了从口语训练中创建基于视觉的句子嵌入，相比较前人工作取得了显著提升的图像字幕检索性能，并且揭示了模型的哪些层更适合识别输入中的单词。

Sep, 2019

从音素到图像：一种循环神经模型中的表征层次结构，用于视觉语言学习

基于堆叠门控循环神经网络的视觉语言学习模型，可以通过音素序列描述的图像描述，学习预测图像的视觉特征，并以层级结构表示语言信息。

Oct, 2016

基于物体和动作意象的理解语言习得

通过深度学习方法研究自然语言处理，通过训练紧密连接的编码器 / 解码器，在传统的指示语言环境和对比学习环境中开发了一个专用于视觉数据表示的私有语言，并且通过神经机器翻译和随机森林分类的分类层将符号表示转化为类别标签。通过两个实验，旨在进行物体识别和动作识别，研究了从真实图像中生成的草图以及从 3D 运动捕获系统生成的 2D 轨迹，通过梯度加权类激活映射（Grad-CAM）方法和 t-SNE 方法解释了学习到的符号和嵌入。

Sep, 2023

语言表征在视觉语音信号模型中的应用

基于视觉基础的言语知觉模型，使用多层循环高速公路网络对时间性建模，能够从输入信号中提取形式和基于含义的语言学知识，并分析了训练模型不同组件使用的表示方式。在表示层次结构的上升过程中，语义方面的编码越来越丰富，而语言输入中形式相关方面的编码在初始增加后呈现平稳或下降的趋势。

Feb, 2017

学习基于图像的句子表示

我们介绍了训练在监督图像字幕语料库上的多种模型，用于预测给定字幕的图像特征，以执行句子表示接地。我们训练了一个接地的句子编码器，在 Coco 字幕和图像检索方面取得了良好的性能，随后展示了该编码器可以成功地转移到各种 NLP 任务，与仅文本模型相比，性能有所提高。最后，我们分析了接地的贡献，表明该系统学习到的单词嵌入优于非接地的单词嵌入。

Jul, 2017

使用网络图像搜索学习视频和句子的联合表示

该研究旨在基于自然语言查询进行视频检索，并采用嵌入模型进行检索任务的训练，试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧，最终在视频和句子检索任务中实现了明显的改进，并取得了与当前最先进技术相媲美的描述生成性能。

Aug, 2016

学习想象力：视觉增强的自然语言生成

该论文提出一种名为 LIVE 的方法，利用预训练语言模型和图像生成模型相结合，使得模型可以像人一样通过想象场景帮助写作，该方法通过融合层实现了图像和文本的结合，并使用 CLIP 来确定文本能否调起想象力，实验表明该方法的有效性。

May, 2023

生成性想象提高机器翻译

本文提出一种基于视觉想象的神经机器翻译方法 ImagiT，仅需要源语言句子即可生成目标翻译，并证明该方法较传统文本翻译方法表现更好，揭示想象过程在修复缺失信息时的重要性。

Sep, 2020

学习使用 Denotation Graph 表示图片和文本

本文提出利用暗示的视觉引导表达学习表示，自动地从图像和文本的数据集中挖掘出的结构关系，用于多模态学习模型中的视觉语言融合任务，证明了该方法在跨模态图片检索、指代表达和组合属性对象识别中的有效性。

Oct, 2020

想象力提高多模翻译

本文研究了多模式翻译任务的两个子任务：学习翻译和学习视觉有关表征，并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现，这种方法在 Multi30K 数据集上比基准表现要好，即使在外部 MS COCO 数据集进行训练也同样有效，而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。

May, 2017