利用空间 LSTMs 生成图像模型
本文介绍了一种深度神经网络模型,用于在两个空间维度上序列预测图像像素;该模型对图像的离散概率进行建模,并在深层循环网络中使用了快速的二维循环层和残差连接,实现了比以前的最新技术更好的自然图像日志似然度分数。
Jan, 2016
研究比较深度卷积网络和带有循环结构的深度卷积神经网络的效果,针对视频识别、图像描述、检索以及视频叙事方面的问题,开发出一种新颖的循环卷积架构,该架构可以训练端到端,可以同时学习时间动态和卷积感知表示,并具有学习长期依赖性的能力。实验结果证明,循环卷积模型在识别或生成方面与现有的模型相比具有明显的优势。
Nov, 2014
该研究致力于解决图像标题生成的问题,提出了一种名为 gLSTM 的扩展型 LSTM 模型,通过将从图像提取的语义信息作为额外输入添加到每个 LSTM 块的单元中,以更紧密地融合图像内容,同时探索了不同的长度标准化策略用于 beam search,以防止偏爱短句子,在 Flickr8K,Flickr30K 和 MS COCO 等基准数据集上取得了与甚至超过当前最先进技术的结果。
Sep, 2015
本研究提出了一种端到端可训练的深度双向 LSTM 模型,用于图像字幕生成,增加了数据增强技术,并在三个基准数据集上进行了评估,证明其性能竞争力强。
Apr, 2016
本文研究使用 Recurrent Neural Networks 中的 Long-Short Term Memory(LSTM)模型来进行基于卫星图像时间序列的土地覆盖分类,并与传统方法进行了比较,结果表明 LSTM 模型在处理高度混合的图像分类问题方面表现更具竞争力。
Apr, 2017
本文提出了一种基于多模态循环神经网络 (m-RNN) 的模型,实现图像内容的生成式描述,模型包含句子的深度循环神经网络和图像的卷积神经网络两个子网络以及它们的多模态层,经验证在三个基准数据集上的表现优于现有方法,还可以应用于图像或句子的检索任务,比现有直接优化排名目标函数的方法取得了显著的性能提升。
Oct, 2014
L2STM 是一种通过学习独立的隐藏状态转移来增强模型的时间动力学建模能力以及解决长期时间动态不稳定的问题的方法,结合多模态训练程序,在人类动作识别方面表现优于现有的基于 LSTM 和 / 或 CNN 的方法。
Aug, 2017
本文介绍了 Grid Long Short-Term Memory,这是一种由 LSTM 单元组成的多维网格网络,可用于向量、序列或图像等更高维的数据。该网络在现有深度 LSTM 架构中的不同之处在于单元不仅在网络层之间连接,也连接在数据的时空维度上,提供了一种统一的使用 LSTM 进行深层次和序列计算的方法。我们将模型应用于 15 位整数加法和序列记忆等算法任务,发现其能够显著优于标准 LSTM。我们还给出了两个实证任务的结果。2D Grid LSTM 在维基百科字符预测基准测试中达到了 1.47 位 / 字符,这是神经方法中的最佳结果。此外,我们使用 Grid LSTM 定义了一种新的二维翻译模型 Reencoder,并表明其在中英翻译任务上优于基于短语的参考系统。
Jul, 2015