重新思考图像描述中的潜在状态形式
本文在图像字幕生成方面,提出了一种仅利用卷积神经网络生成字幕的框架,通过并行计算,训练速度比基于 LSTM 的模型快 3 倍,同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。
May, 2018
本研究提出了一种端到端可训练的深度双向 LSTM 模型,用于图像字幕生成,增加了数据增强技术,并在三个基准数据集上进行了评估,证明其性能竞争力强。
Apr, 2016
提出了基于注意力机制的图像描述模型,该模型使用三种成对的交互来建立图像区域、描述文本和 RNN 语言模型之间的依赖关系,并运用空间变换器来生成最佳的区域关注机制,达到了 MSCOCO 数据集上的最佳结果。
Dec, 2016
本文提出了一种卷积图像字幕生成技术,并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能,同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析,提出了卷积语言生成方法的有力证据。
Nov, 2017
通过使用结构化的变分自编码器进行完全无监督的学习,得出语境化嵌入的表征空间存在潜在状态的网络,这些状态不仅作为表示流形的拓扑结构的锚点,还揭示了对句子进行编码的内部机制。同时,表明句子作为潜在网络上的遍历,状态转换链编码了句法模板,状态 - 词发射填充了内容。
Jun, 2022
本文提出了一种基于多模态随机递归神经网络(MS-RNN)的生成式视频字幕方法,利用基于拉丁超立方采样(LHS)的随机采样方法解决给定视频的不确定性问题,支持不同的句子生成,实验结果显示该方法优于现有技术,并提高了视频字幕的性能。
Aug, 2017
通过 Seq-CVAE 模型,学习每一个单词位置的潜在空间,并仿照一个将来总结的表示来鼓励这个时间上的潜在空间捕捉如何完成句子的 “意图”,并在 MSCOCO 数据集上表现出了显著的多样性改进指标,同时在句子质量方面达到了同等水平。
Aug, 2019
本文探讨利用类人认知风格,即建立对要描述的图像和构建的句子的整体认知来提高计算机图像理解能力。针对现有模型生成句子时没有考虑后续单词对整个句子生成的影响,本文首先提出了一种利用双向 LSTM 的相互援助网络结构(MaBi-LSTMs),以获取整体上下文信息。其次,为了提高跨领域模型生成更高质量的句子,我们进一步开发了跨模态注意机制来修饰两个句子,通过融合其显著部分以及图像的显著区域。在 Microsoft COCO 数据集上的实验结果表明,该模型改善了编码器解码器模型的性能,并取得了最先进的结果。
Oct, 2019
本文中介绍了一种基于多维 LSTM 的递归图像模型,该模型可以捕获长距离像素之间的统计依赖,适用于纹理合成和补全等多项任务,并在多个图像数据集上的定量比较中表现优异。
Jun, 2015