本文提出了一种基于多模态循环神经网络 (m-RNN) 的模型,实现图像内容的生成式描述,模型包含句子的深度循环神经网络和图像的卷积神经网络两个子网络以及它们的多模态层,经验证在三个基准数据集上的表现优于现有方法, 还可以应用于图像或句子的检索任务,比现有直接优化排名目标函数的方法取得了显著的性能提升。
Oct, 2014
本文提出了一种基于多模态循环神经网络的模型,用于生成图像标题,并在四个基准数据集上验证了该模型的有效性。
Dec, 2014
本文对于近三十年来产生和实践了重要的循环神经网络(RNN),LSTM和BRNN等模型的研究进行综述,旨在提供一个自成体系的最前沿阐述和历史视角,并引用了相关研究文献。
May, 2015
本文介绍了使用循环神经网络(RNN)生成短视频文本描述的系统,利用静态图像特征和视频专属特征的RNN,我们研究了视觉内容分类器作为额外信息源的实用性,并通过实验结果证明了密集轨迹视频特征和内容分类器输出的利用,可以比单独利用它们表现更好。
Dec, 2015
本文研究了基于循环神经网络(RNN)的提及检测系统的鲁棒性及其在信息提取中的应用,表明在英语的普通或跨领域的情况下,RNNs不仅在通用情况下优于之前报告的最佳系统(最多可达9%的相对错误降低),而且在荷兰语中表现出的命名实体识别相似任务中,RNNs比传统方法显著优越(最多可达22%的相对错误降低)。
Feb, 2016
本文提出了基于TopicRNN的语言模型,它结合了RNN和潜在主题模型的优点,能够捕捉本地(句法)和全局(语义)依赖关系,并更好地预测单词。实证结果表明,TopicRNN在单词预测方面优于现有的上下文RNN基线,并且可以作为无监督特征提取器用于情感分析。
Nov, 2016
本研究探讨了图像中产生的有关活动,物体和角色的结构化摘要的名称识别中出现的语义稀疏问题,并提出了一种新的张量组合函数和语义增强技术,以有效地处理这个问题。实验结果表明,这种方法可使模型在模型的表现上相对提高2.11%到4.40%,同时在增加语义增强技术之后,这种方法还可以进一步提高6.23%到9.57%。
Dec, 2016
通过基于图神经网络的模型,我们能够有效捕捉语义角色之间的联合依赖关系,从而在预测图像中最显著的动词和填充其语义角色时取得显著提升,实验证明我们的方法在情境识别中表现优异。
Aug, 2017
该研究介绍了使用语义动作标签作为反向问题进行预测的方法,提出了一种名为模块化动作概念网络的视频预测模型,该模型可以生成对应的未来帧且无需边界框,还可以用于物体检测和高层次的认知任务。
Nov, 2020
本文利用CLIP 模型的图像语言描述学习了图像的上下文,在情况识别任务中深度和宽度的多层感知器块可获得显着结果,设计的基于交叉注意力的Transformer模型ClipSitu XTF,在imSitu数据集的语义角色标注任务上的准确率优于最先进的模型14.1%。
Jul, 2023