视觉好奇心:学习提问以学习视觉识别
我们介绍了GuessWhat?!,一种两个玩家的猜谜游戏,用于研究计算机视觉和对话系统的相互作用。我们收集了一个由150K个人类游戏、66K张图像和总共800K个视觉问答对组成的大规模数据集。我们还使用深度学习模型建立了最初的基线。
Nov, 2016
本文介绍了一种基于深度强化学习的视觉问答和对话代理训练方法,通过协作游戏中的自然语言对话,演示了'visual'对话代理具有自主创建基于视觉属性的语言和沟通的能力,并发现强化学习有助于代理人的团队合作,促进信息交流和提高效率。
Mar, 2017
本文是一项关于视觉问答中主动学习的实证研究,聚焦于使用深度VQA模型从一个池中选择有信息量的问题-图像对,通过与贝叶斯神经网络框架下快速有效的目标驱动主动学习评分函数,最大限度地提高性能,针对三种不同的主动学习方法进行研究评估,结果表明,本文提出的目标驱动评分函数表现最佳。
Nov, 2017
本文提出一种深度增强学习框架,通过三种新的中间奖励来鼓励产生精简的问题,旨在解决图像问题中提出智能、目标导向的问题的挑战,同时在 GuessWhat?! 数据集上评估了该模型,结果显示相应的问题有助于在图片中识别特定的物体,并提高了成功率。
Nov, 2017
本文介绍了一种基于“学问即问”(LBA)的交互式学习框架用于开发和测试智能视觉系统在视觉问题回答方面的应用, 不同于标准的VQA 训练,LBA更接近自然学习且可能具有更高的数据效率,自动生成的数据在CLEVR数据集上具有很好的性能和表现,对最新的VQA模型和新的测试数据分布具有很好的推广与实现。
Dec, 2017
展示了一个简单对称的辨别性基线,该基线可用于预测答案和问题,其性能与最先进的记忆网络方法相当。此外,首次在视觉对话数据集上评估了提问系统的性能,并展示了如何从辨别式问题生成和问题回答生成视觉对话。
Mar, 2018
本文提出了一个交互式学习框架以及多种学习方法应对视觉和语言导航任务中出现的模糊情况,引入强化学习并设计奖励塑形项使智能体仅在必要时提问,同时展示了持续学习策略的有效性。
Dec, 2019
我们提出了一种名为Q&A Prompts的方法,该方法通过挖掘图像中的问题-回答对来发现丰富的视觉线索,并将其作为提示发送给预训练的多模态大型语言模型,以在需要涉及不同世界知识的具有挑战性的视觉问题回答数据集上实现了显著的改进。
Jan, 2024
CLEVR-POC 是一个基于部分可观察环境下的逻辑约束的推理密集型视觉问答基准,通过集成 GPT-4 大型语言模型、视觉感知网络和形式逻辑推理器,展示了在可用且至关重要的环境特定背景知识下实现卓越性能的神经符号模型。
Mar, 2024