用于情境识别的循环模型

Mar, 2017

Recurrent Models for Situation Recognition

Arun Mallya, Svetlana Lazebnik

TL;DR本文提出使用递归神经网络模型来预测结构化的“图像情境”，进一步研究了行为和名词实体在动作相关的语义角色中的作用，并且创新性地使用了专门的动作预测网络，以及一个 RNN 来进行名词预测。相比于之前使用条件随机场的工作，我们的系统在最近的imSitu数据集上获得了最佳的准确性表现，并且将从情景预测中学习到的特征转移到图像字幕生成任务中，以便更准确地描述人-物互动。

Abstract

This work proposes recurrent neural network (RNN) models to predict structured image situations - actions and noun entities fulfilling semantic r

发现论文，激发创造

用多模态递归神经网络来解释图像

本文提出了一种基于多模态循环神经网络 (m-RNN) 的模型，实现图像内容的生成式描述，模型包含句子的深度循环神经网络和图像的卷积神经网络两个子网络以及它们的多模态层，经验证在三个基准数据集上的表现优于现有方法, 还可以应用于图像或句子的检索任务，比现有直接优化排名目标函数的方法取得了显著的性能提升。

Oct, 2014

多模态循环神经网络（m-RNN）实现的深度字幕生成

本文提出了一种基于多模态循环神经网络的模型，用于生成图像标题，并在四个基准数据集上验证了该模型的有效性。

Dec, 2014

循环神经网络在序列学习中的关键评估

本文对于近三十年来产生和实践了重要的循环神经网络（RNN），LSTM和BRNN等模型的研究进行综述，旨在提供一个自成体系的最前沿阐述和历史视角，并引用了相关研究文献。

May, 2015

基于帧和视频级特征以及视觉内容分类的循环网络视频字幕生成

本文介绍了使用循环神经网络（RNN）生成短视频文本描述的系统，利用静态图像特征和视频专属特征的RNN，我们研究了视觉内容分类器作为额外信息源的实用性，并通过实验结果证明了密集轨迹视频特征和内容分类器输出的利用，可以比单独利用它们表现更好。

Dec, 2015

基于循环神经网络的提及检测鲁棒性探究

本文研究了基于循环神经网络（RNN）的提及检测系统的鲁棒性及其在信息提取中的应用，表明在英语的普通或跨领域的情况下，RNNs不仅在通用情况下优于之前报告的最佳系统（最多可达9％的相对错误降低），而且在荷兰语中表现出的命名实体识别相似任务中，RNNs比传统方法显著优越（最多可达22％的相对错误降低）。

Feb, 2016

TopicRNN: 一种具有长程语义依赖的循环神经网络

本文提出了基于TopicRNN的语言模型，它结合了RNN和潜在主题模型的优点，能够捕捉本地（句法）和全局（语义）依赖关系，并更好地预测单词。实证结果表明，TopicRNN在单词预测方面优于现有的上下文RNN基线，并且可以作为无监督特征提取器用于情感分析。

Nov, 2016

常见的非常见：场景识别中的语义稀疏性

本研究探讨了图像中产生的有关活动，物体和角色的结构化摘要的名称识别中出现的语义稀疏问题，并提出了一种新的张量组合函数和语义增强技术，以有效地处理这个问题。实验结果表明，这种方法可使模型在模型的表现上相对提高2.11％到4.40％，同时在增加语义增强技术之后，这种方法还可以进一步提高6.23％到9.57％。

Dec, 2016

利用图神经网络进行情境识别

通过基于图神经网络的模型，我们能够有效捕捉语义角色之间的联合依赖关系，从而在预测图像中最显著的动词和填充其语义角色时取得显著提升，实验证明我们的方法在情境识别中表现优异。

Aug, 2017

语义视频预测中的模块化行动概念建模

该研究介绍了使用语义动作标签作为反向问题进行预测的方法，提出了一种名为模块化动作概念网络的视频预测模型，该模型可以生成对应的未来帧且无需边界框，还可以用于物体检测和高层次的认知任务。

Nov, 2020

ClipSitu：在情境识别中有效地利用CLIP进行条件预测

本文利用CLIP 模型的图像语言描述学习了图像的上下文，在情况识别任务中深度和宽度的多层感知器块可获得显着结果，设计的基于交叉注意力的Transformer模型ClipSitu XTF，在imSitu数据集的语义角色标注任务上的准确率优于最先进的模型14.1％。

Jul, 2023