迁移学习行为与人 - 物交互问题解答模型

Apr, 2016

迁移学习行为与人 - 物交互问题解答模型

Learning Models for Actions and Person-Object Interactions with Transfer to Question Answering

Arun Mallya, Svetlana Lazebnik

TL;DR本文提出了一种利用局部和全局上下文的深度卷积神经网络模型来预测静态图像中的人类活动标签，实现了对两个数据集上数百个标签的最先进性能。我们使用多实例学习来处理缺乏对单个人实例级别的监督的情况，并使用加权损失来处理不平衡的训练数据。此外，我们展示了如何利用这些数据集训练的专业特征来提高视觉问答任务（Visual Question Answering）的准确性，并取得了对人活动和人 - 物关系两种问题的改进。

Abstract

This paper proposes deep convolutional network models that utilize local and global context to make human activity label predictions in still images, achieving state-of-the-art performance on two recent datasets with hundreds of labels each. We use →

deep convolutional network human activity recognition multiple instance learning weighted loss visual question answering

发现论文，激发创造

一种基于深度学习的人体动作单张图像解析模型

本文主要研究如何通过使用深度置信网络方法来融合人体布局和周围信息从静态图像中理解人体行为，并使用手动标记的数据来改善网络的训练和微调阶段的效率。结果表明该方法具有较好的鲁棒性和优异的性能。

Feb, 2015

探索图像问答模型和数据

本研究旨在通过新的模型和数据集解决基于图像的问答问题，使用神经网络和视觉语义嵌入预测有关图像的简单问题的答案，提出了一种将图片描述转化为问答格式的问题生成算法，为新的数据集提供了基线结果。

May, 2015

领域特定先验和元学习用于少样本第一人称动作识别

本文旨在提出一种基于元学习的有效的实现少样本迁移学习的方法，该方法使用局部视觉线索学习表示，以在具有不同场景和动作配置的公共数据集之间进行行为分类模型的迁移。结果表明，该方法在跨类别和跨数据集转移方面效果优于现有的行为分类方法。

Jul, 2019

使用卷积神经网络从图像中学习答案

本文提出使用卷积神经网络 (CNN) 解决图像问答 (QA) 问题，通过三个 CNN 模型来提升图像和问题共同表示的分类能力。经过 DAQUAR 和 COCO-QA 两个基准测试集的测试，本文的模型表现显著优于现有的最优解。

Jun, 2015

从 CNN-Transformer 模型中提取知识，以增强人类动作识别

通过知识蒸馏以及结合 CNN 和 ViT 模型，本研究旨在改善人体动作识别的性能和效率，从较大的教师模型向较小的学生模型传递知识，并通过引入 Transformer 视觉网络作为学生模型以及卷积网络作为教师模型，扩展了对局部图像特征和全局特征的关注，进而显著提升了动作识别的准确性和平均精度。

Nov, 2023

利用 ConViT 进行静态图像中的人类动作识别

通过引入 Vision Transformer（ViT）作为卷积层，本文提出了一种新的模块，用于在图像中提取各个区域之间的关系，并将其应用于动作识别模型，实现了在 Stanford40 和 PASCAL VOC 2012 行为数据集上达到了分别达到了 95.5% mAP 和 91.5% mAP 的结果，可与其他最先进的方法相媲美。

Jul, 2023

深度学习图像问题回答教程

本教程介绍了一种基于神经网络的方法来回答关于真实世界图像内容的问题，使用 DAQUAR 和 VQA 数据集进行模型演示，并介绍了 Keras 和 Kraino 等深度学习框架，从图像识别方面进行进一步的性能提升。

Oct, 2016

视觉问答技巧：2017 年挑战赛收获

本文介绍了一个用于视觉问答（VQA）的最先进模型，这个模型在 2017 年的 VQA 挑战中获得了第一名。通过对超过 3,000 个 GPU 小时的架构和超参数的深入探索，我们发现了许多用于提高性能的 Tips and Tricks。我们详细地分析了它们的影响以协助其他人进行适当的选择。

Aug, 2017

结合多种线索的视觉 Madlibs 问题回答

本论文提出一种从视觉 Madlibs 数据集回答填空多项选择题的方法，通过使用针对特定任务训练的网络的组合，结合特征提取的空间支持，将每个特征与候选答案映射到联合嵌入空间并解决优化问题，以学习组合来自多个提示的 CCA 模型的分数以选择最佳答案。实验结果表明，与现有技术相比，本方法取得了显著的改进，且在处理各种问题类型时，使用各种图像提示并仔细选择特征提取的空间支持有益。

Nov, 2016

主动寻求并学习实时数据

本文介绍了一种基于元学习和数据检索的视觉问答方法，该方法不需要训练数据，能够使用外部数据来源来回答各种问题，实验表明该方法在 VQA-CP v2 基准测试中表现优异，并且对于迁移学习领域具有更强的稳健性。

Apr, 2019