从音素到图像:一种循环神经模型中的表征层次结构,用于视觉语言学习
研究使用回归神经网络模型处理图像和其口述描述中语音音素的表示和编码,通过一系列实验分析了音素如何在模型的各层中编码,发现最明显的音素表示在较低层,而注意力机制则显著削弱语音学编码,并使得话语嵌入更加不变。
Jun, 2017
基于视觉基础的言语知觉模型,使用多层循环高速公路网络对时间性建模,能够从输入信号中提取形式和基于含义的语言学知识,并分析了训练模型不同组件使用的表示方式。在表示层次结构的上升过程中,语义方面的编码越来越丰富,而语言输入中形式相关方面的编码在初始增加后呈现平稳或下降的趋势。
Feb, 2017
本文研究了如何在视觉语音循环神经网络中表示和识别单词,使用门控方法分析神经网络所学单词表征的正确性和词汇竞争过程中的单词激活方式,其结果表明当网络能接触到目标单词第一个音素时才能正确识别单词表征。
Sep, 2019
本研究提出了一种改进的神经网络方法,借助多层 GRU、重要性采样、循环学习率、向量自我注意力等结构,实现了从口语训练中创建基于视觉的句子嵌入,相比较前人工作取得了显著提升的图像字幕检索性能,并且揭示了模型的哪些层更适合识别输入中的单词。
Sep, 2019
该研究提出了 Imaginet 模型,该模型可以从耦合文本和视觉输入中学习语言表达的视觉基础表示,采用多任务目标,并从视觉场景描述中获取单词的含义表达,并学习有效地利用语义解释多词短语的顺序结构。
Jun, 2015
本文基于多任务门控循环神经网络的案例,提出了一种识别对网络最终预测贡献的关键词汇并分析 RNNs 激活模式的方法。发现该网络的语言模型层对句法功能词汇更敏感,而预测图像的层对句子的信息结构和语义信息更加敏感,并学会了根据词汇的语法功能进行不同处理,而被分化的各个隐藏单元则用于在长时间步骤中传递信息以编码长期任务相关性。
Feb, 2016
通过深度学习方法研究自然语言处理,通过训练紧密连接的编码器 / 解码器,在传统的指示语言环境和对比学习环境中开发了一个专用于视觉数据表示的私有语言,并且通过神经机器翻译和随机森林分类的分类层将符号表示转化为类别标签。通过两个实验,旨在进行物体识别和动作识别,研究了从真实图像中生成的草图以及从 3D 运动捕获系统生成的 2D 轨迹,通过梯度加权类激活映射(Grad-CAM)方法和 t-SNE 方法解释了学习到的符号和嵌入。
Sep, 2023
本研究旨在探究神经语言模型是否能够在单线性序列输入的情况下提取层次信息,并通过中心嵌套句子和语法岛约束等自然语言现象的实验研究证明:LSTM 能够识别和利用堆栈数据结构来存储和获取一定数量的语言层次结构。
Jun, 2019
通过对具有意义的监督的视觉数据进行训练,我们发现在具有限定语言数据的情况下,视觉监督可以提高词汇学习的效率,但这种改进是有限的,并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。
Oct, 2023
本研究探讨类别学习和奖励学习实验中的泛化技能和预测人类行为的最有效表示方法,结果表明,深度学习模型从文本和图像数据中训练得到的表示方式优于仅从图像中训练得到的表示方式,强调了语言在塑造人类认知中的作用。
Jun, 2023