本研究提出了一种改进的神经网络方法,借助多层 GRU、重要性采样、循环学习率、向量自我注意力等结构,实现了从口语训练中创建基于视觉的句子嵌入,相比较前人工作取得了显著提升的图像字幕检索性能,并且揭示了模型的哪些层更适合识别输入中的单词。
Sep, 2019
基于堆叠门控循环神经网络的视觉语言学习模型,可以通过音素序列描述的图像描述,学习预测图像的视觉特征,并以层级结构表示语言信息。
Oct, 2016
通过深度学习方法研究自然语言处理,通过训练紧密连接的编码器 / 解码器,在传统的指示语言环境和对比学习环境中开发了一个专用于视觉数据表示的私有语言,并且通过神经机器翻译和随机森林分类的分类层将符号表示转化为类别标签。通过两个实验,旨在进行物体识别和动作识别,研究了从真实图像中生成的草图以及从 3D 运动捕获系统生成的 2D 轨迹,通过梯度加权类激活映射(Grad-CAM)方法和 t-SNE 方法解释了学习到的符号和嵌入。
Sep, 2023
基于视觉基础的言语知觉模型,使用多层循环高速公路网络对时间性建模,能够从输入信号中提取形式和基于含义的语言学知识,并分析了训练模型不同组件使用的表示方式。在表示层次结构的上升过程中,语义方面的编码越来越丰富,而语言输入中形式相关方面的编码在初始增加后呈现平稳或下降的趋势。
Feb, 2017
我们介绍了训练在监督图像字幕语料库上的多种模型,用于预测给定字幕的图像特征,以执行句子表示接地。我们训练了一个接地的句子编码器,在 Coco 字幕和图像检索方面取得了良好的性能,随后展示了该编码器可以成功地转移到各种 NLP 任务,与仅文本模型相比,性能有所提高。最后,我们分析了接地的贡献,表明该系统学习到的单词嵌入优于非接地的单词嵌入。
Jul, 2017
该研究旨在基于自然语言查询进行视频检索,并采用嵌入模型进行检索任务的训练,试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧,最终在视频和句子检索任务中实现了明显的改进,并取得了与当前最先进技术相媲美的描述生成性能。
Aug, 2016
该论文提出一种名为 LIVE 的方法,利用预训练语言模型和图像生成模型相结合,使得模型可以像人一样通过想象场景帮助写作,该方法通过融合层实现了图像和文本的结合,并使用 CLIP 来确定文本能否调起想象力,实验表明该方法的有效性。
May, 2023
本文提出一种基于视觉想象的神经机器翻译方法 ImagiT,仅需要源语言句子即可生成目标翻译,并证明该方法较传统文本翻译方法表现更好,揭示想象过程在修复缺失信息时的重要性。
Sep, 2020
本文提出利用暗示的视觉引导表达学习表示,自动地从图像和文本的数据集中挖掘出的结构关系,用于多模态学习模型中的视觉语言融合任务,证明了该方法在跨模态图片检索、指代表达和组合属性对象识别中的有效性。
Oct, 2020
本文研究了多模式翻译任务的两个子任务:学习翻译和学习视觉有关表征,并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现,这种方法在 Multi30K 数据集上比基准表现要好,即使在外部 MS COCO 数据集进行训练也同样有效,而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。
May, 2017