视觉搜索中的串行和并行处理的计算模型
该篇博士论文研究和开发了用于视频序列中的时空视觉注意建模和理解的分层表示。具体而言,我们提出了两个用于视觉注意的计算模型。首先,我们提出了一个上下文感知的生成概率模型,用于视觉注意建模和理解。其次,我们开发了一个深度网络架构,用于视觉注意建模,首先估计自上而下的时空视觉注意,最终用于建模时间域中的注意。
Aug, 2023
本研究采用时间分辨脑成像和深度学习的方法,探究人脑视觉处理的层次动态及信息流向,结果表明,回归深度神经网络模型比参数匹配前馈模型更能准确捕捉人脑视觉处理的多区域功能
Mar, 2019
对于快速动物 vs 非动物分类任务,我们对不同阶段处理的视觉表示进行了分析,并发现人类的决策最符合中间阶段的预测结果。结果表明,人类可能依靠中等复杂度的视觉特征进行快速分类,并且现代深度网络模型所提供的视觉表示的复杂度可能超出人类在这种任务中使用的复杂度。
Jun, 2016
提出了一个基于多类型注意力机制的网络框架,可以在自然语言对话中,基于变长的自然语言表述,快速准确地识别图像中被指称的对象,该方法在多个基准测试集上性能卓越。
Nov, 2017
本研究提出 Visual Spatial Reasoning(VSR)数据集,这是包含超过 10k 已标注的英文自然文本图像对和 66 种空间关系的数据集,研究表明当前视觉语言模型只能达到约 70%的准确率,无法识别有关物体朝向的关系。
Apr, 2022
人类视觉系统使用两个并行通路进行空间处理和物体识别,而计算机视觉系统往往使用单一的前馈通路,导致其鲁棒性、适应性和效率低于人类视觉。为了弥补这一差距,我们开发了一种受人类眼睛和大脑启发的双流视觉模型,模拟人眼使用巨细胞和小细胞视网膜神经节细胞将视网膜输入分离到大脑的过程。通过对比人脑和模型处理同一视频的功能对齐性,我们发现 WhereCNN 和 WhatCNN 分支分别与视觉皮层的背侧和腹侧通路相匹配,主要因为它们的不同学习目标在视觉注意和物体识别中的显著差异。这种双流模型在脑启发的计算机视觉中迈出了进一步的步伐,使并行神经网络能够主动探索和理解视觉环境。
Oct, 2023
介绍了一种符号认知架构 CASPER,运用定性空间推理来实现智能机器人理解他人意图并协作完成任务的目的。通过模拟的厨房环境测试表明,机器人可以识别正在进行的目标并适当地协作完成任务。这是一个新型的定性空间关系应用于人机交互意图读取问题的方法。
Sep, 2022
本文提出了一种利用文本语料库和视觉语料库进行自动可视化概念发现的算法,该算法基于关联图像的视觉判别力自动筛选文本术语,并使用视觉和语义相似性将其分组成概念。 通过双向图像和句子检索任务和图像标记任务说明了所发现概念的应用,结果表明发现的概念不仅显著优于几个大型手动选择的概念集,而且在检索任务中也取得了最先进的性能。
Sep, 2015