深度学习图像问题回答教程

Oct, 2016

Tutorial on Answering Questions about Images with Deep Learning

Mateusz Malinowski, Mario Fritz

TL;DR本教程介绍了一种基于神经网络的方法来回答关于真实世界图像内容的问题，使用DAQUAR和VQA数据集进行模型演示，并介绍了Keras和Kraino等深度学习框架，从图像识别方面进行进一步的性能提升。

Abstract

Together with the development of more accurate methods in computer vision and natural language understanding, holistic architectures that answer on questions about the content of real-world images have emerged. I

发现论文，激发创造

使用卷积神经网络从图像中学习答案

本文提出使用卷积神经网络 (CNN) 解决图像问答 (QA) 问题，通过三个 CNN 模型来提升图像和问题共同表示的分类能力。经过 DAQUAR 和 COCO-QA 两个基准测试集的测试，本文的模型表现显著优于现有的最优解。

Jun, 2015

基于外部知识的自由形式视觉问答

提出了一种结合图像内容的内部表示和来自广义知识库提取的信息以回答广泛的基于图像的问题的视觉问答方法，可回答自然语言提出的关于图像内容以外信息的问题，显示在 Toronto COCO-QA 和 MS COCO-VQA 数据集上获得最佳结果。

Nov, 2015

询问神经元：视觉问答的深度学习方法

本文介绍了如何通过结合图像表示和自然语言处理的最新进展来解决实际图像的问答任务，并提供了两个新的度量标准来分析人类共识以及如何在DAQUAR数据集上调整我们的方法以获得更好的性能。

May, 2016

视觉问答: 方法与数据集综述

本文针对视觉问答任务进行综述，比较传统的视觉元素和常识知识融合的方法。并对数据集进行了评估，结合Visual Genome数据集中的图像结构注释研究了不同复杂度的问答对。最后讨论了未来发展方向，重点关注结构化知识库和自然语言处理模型的连接。

Jul, 2016

开放式视觉问答

研究使用深度学习框架解决视觉问答任务的方法，探索LSTM网络和VGG-16、K-CNN卷积神经网络提取图像特征，将其与问题的词嵌入或句子嵌入相结合进行答案预测。在Visual Question Answering Challenge 2016中获得了53.62％的准确率。

Oct, 2016

VQA-Machine：掌握使用现有视觉算法回答新问题的方法

该研究提出了一种新的 co-attention 模型来利用现成的算法实现图像操作，从而达到居于最先进水平的视觉问答结果。

Dec, 2016

视觉问答算法分析

本文分析了现有的视觉问答（VQA）算法，并使用一个新数据集进行了评估，提出了新的评估方案来补偿过度展示的问题类型，并研究了不同算法的优缺点和注意力机制的作用。

Mar, 2017

视觉问答技巧：2017年挑战赛收获

本文介绍了一个用于视觉问答（VQA）的最先进模型，这个模型在2017年的VQA挑战中获得了第一名。通过对超过3,000个GPU小时的架构和超参数的深入探索，我们发现了许多用于提高性能的Tips and Tricks。我们详细地分析了它们的影响以协助其他人进行适当的选择。

Aug, 2017

使用深度学习的视觉问答: 调查和性能分析

本篇综述介绍了视觉问答（VQA）任务，包括基于自然语言描述的图像识别以及机器学习模型的研究，主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。

Aug, 2019

深度学习与卷积神经网络：聚焦监督回归的紧凑全面教程（预印本）

本教程针对深度学习中的卷积神经网络（CNN）和监督回归进行了全面而紧凑的讨论，填补了现有资源中基础而严谨的教程空缺。文章强调学习理论、统计学与机器学习之间的强大协同作用，旨在为学生和教授提供了解深度学习基础的理想资源。该工作展示了对深度学习概念的深入解析，提高了学习的可及性和系统性。

Aug, 2024