基于循环关系记忆网络的无监督图像描述生成
本研究探索了图像及其基于语句的描述之间的双向映射,提出了使用递归神经网络学习该映射的方法。我们使用相同的模型生成新的描述句子,并重新构建与图像相关的可视化特征,同时使用新颖的递归视觉记忆来辅助语句生成和可视化特征重构。在生成新的图像描述任务中,我们的自动生成字幕被人类喜欢的比例超过了 19.8%。和使用类似的视觉特征方法相比,我们的结果在图像和语句检索任务上达到了同等或更好的效果。
Nov, 2014
提出了一种记忆注意力循环网络用于视频字幕生成,可以在训练数据中探索词与其各种类似视觉上下文的全谱对应关系,从而实现对每个单词的更全面理解,并提高字幕生成质量。
May, 2019
研究了基于记忆的神经网络在处理具有复杂关系的任务时的能力,提出了一种新的内存模块 RMC,它使用多头点积注意力机制来加强记忆之间的交互,达到了在多个领域的最先进结果。
Jun, 2018
本文提出了一个基于关系嵌入的表示重建网络(R3Net)来明确区分真实变化和大量混乱和无关变化,并引入了外部语法骨架预测器(SSP)来增强变化定位和字幕生成之间的语义交互,实验结果表明,所提出的方法在两个公共数据集上达到了最先进的水平。
Oct, 2021
本文提出了一种基于多模态循环神经网络 (m-RNN) 的模型,实现图像内容的生成式描述,模型包含句子的深度循环神经网络和图像的卷积神经网络两个子网络以及它们的多模态层,经验证在三个基准数据集上的表现优于现有方法,还可以应用于图像或句子的检索任务,比现有直接优化排名目标函数的方法取得了显著的性能提升。
Oct, 2014
本研究提出了一种基于深度神经网络的 R2-Net 方法用于句子语义匹配问题,该方法利用 BERT 自动编码句子,设计了一个 CNN 编码器来捕获局部信息,并引入了一种自监督的关系分类任务来引导模型更好地提取关系信息,同时利用三元损失函数更好地区分类内和类间关系,实验证明该方法的优越性能。
Dec, 2020
本研究提出了 Spatial Semantic Recurrent Mining (S extsuperscript {2} RM) 方法,用于实现高质量的跨模态融合,包括分布语言特征、空间语义递归协同解析和解析语义平衡,并结合 Cross-scale Abstract Semantic Guided Decoder (CASG) 来凸显指代物的前景。实验证明,该方法在四个具有挑战性的数据集上表现优于其他先进算法。
May, 2024
使用 M$^2$ - Meshed Transformer with Memory for Image Captioning 的架构,改进了图像编码和语言生成步骤;通过测试,证明该架构在单模型和集成配置上达到了新的最佳状态,尤其是在描述训练集中看不见的对象时表现优异。
Dec, 2019
本文提出了一种使用多个编码器的循环融合网络 (RFNet) 来处理图像字幕生成问题,RFNet 可以利用多个编码器的输出之间的相互作用,生成新的、紧凑而且信息丰富的表示,验证实验表明,RFNet 对于图像字幕生成问题是有效的,并且取得了最新的最好结果。
Jul, 2018