- 文本引导对视觉注意力的影响:数据库与模型
本文从主观和客观的角度对文本引导下的图像显著性进行广泛研究,并提出了一种考虑文本影响的文本引导显著性预测模型,该模型在各种评估指标上明显优于现有的显著性模型。
- 基于扩散模型的并行视觉关注个性化人脸修复
本文提出了使用并行视觉注意力(Parallel Visual Attention,PVA)和扩散模型相结合的方法,实现面部修复过程中的身份保留,达到了无与伦比的身份相似性,并具备有效的语言可控性。与各种基准方法相比,PVA 在面部修复和具有 - 狗类视觉环境分类与视觉注意分析
研究了 11 只狗的可视注视及其对不同物体的视觉注意力,使用头戴式眼动仪和训练好的 MaskRCNN 模型对数据进行了分析,结果显示狗更多地注视公交车、植物、人行道和建筑设备。
- 深度显著性模型对视觉注意力的学习
通过分解隐含特征为可解释的基底,提出了一种新的分析框架,用于研究深度显著性模型成功背后的隐含特征、显著性预测的原理以及其对不同应用场景中的视觉注意力的影响。
- 视觉注意信息可追溯至大脑皮层反应而非视网膜:来自自然图像刺激的电生理实验证据
我们通过计算方法研究了视觉注意力的生物学基础,分析了小鼠的视网膜和皮层电生理数据,结果显示在 V1 中约 10% 的神经元对显著和非显著的视觉区域有不同的响应,视觉注意力信息在视网膜反应中并未被追踪到,似乎视网膜对视觉注意力仍然是个陌生的概 - CLERA:一种联合认知负荷和野外眼部区域分析的统一模型
提出了一种基于 CLERA 模型的非侵入式、实时的眼动分析方法,可以监测人类视觉注意力分配并估计其心理状态,在人机交互 (HCI) 应用中有广泛的潜在用途。该方法在认知负荷估计、眼睛关键点检测和眨眼估计等任务中展示了显著的效果,超越了先前的 - 多模态互相关注和迭代交互用于指代图像分割
本篇论文提出了一种基于 Transformer 的多模态相互注意力机制和相互解码器,与之相结合的迭代式多模态交互机制及语言特征重建技术,在指代图像分割的任务中取得了很好的效果。
- 从放射科医师的注视中学习更好的对比视图
提出了一种基于医学专家注意力的新型数据增强方法 FocusContrast,它考虑疾病相关的异常信息,通过模仿医学专家的视觉注意力生成对比视图,可在膝关节 X 射线数据集的分类准确性上比现有的自监督学习方法如 SimCLR,MoCo 和 B - 利用计算注意力预测人类注意力
本研究提出了人类注意力变压器(HAT),它是一种单一模型,预测两种形式的注意力控制,并通过使用一种新颖的基于转换器的架构和一种简化的凹面视网膜,实现了类似于人类动态视觉工作记忆的时空意识,同时避免了离散化固定目光。HAT 在计算注意力方面设 - 深度无模型强化学习中的感知学习
本文提出了一个用于强化学习(RL)的新型无模型代理人,从视觉关注和主动感知的概念中受到启发,将人类注意力机制应用于代理人,创建了一种硬式关注机制,结合了 RAM 模型和 PPO 算法,在两个 Atari 游戏中比较其性能,结果表明我们的模型 - 司机注意力分散力量研究:车内触摸屏交互视觉需求的可解释预测
本文利用大量自然驾驶数据和机器学习方法,预测车内触摸屏界面的可视需求和驾驶员视觉关注分配的影响因素,并提供局部和全局的解释说明,以帮助设计师评估当前设计并更好地预测和理解其对未来设计所可能产生的影响。
- 使用卷积神经网络预测视觉搜索过程中的视觉关注和干扰
本文提出了两种方法来模拟观察者在视觉搜索过程中的视觉注意力和干扰,第一种方法使用轻量级的自由视图显著性模型来预测人眼在搜索图像像素上的注视密度地图,第二种方法基于目标对象预测干扰器和目标。
- 神经形态学方法在图像处理与机器视觉中的应用
本文研究神经形态工程的应用,探讨图像处理中的视觉任务、异性扩散和神经形态视觉传感器的角色;介绍 memristors 在执行图像分割和实现人工视觉系统中的应用,讨论硬件加速器的使用,和异步信号传输协议,同时探讨计算机视觉进展可能直接受益于非 - 使用图注意力网络进行图像美感评估
本文提出了一种基于图神经网络的两阶段框架,通过图形神经网络捕捉视觉注意力,使得美学视觉分析中原始的长宽比和空间布局等特征得以保留,进一步提高了美学得分回归的精度。
- 我的大脑关注哪里?从脑活动预测视觉注意力
本文研究基于 EEG 采集数据的图像视觉注意力识别算法,结果表明其效果与传统基于图像分析的方法相当,数据集和代码已提供。
- 关于无意识视觉和人工智能的关系:综述
通过对盲视现象的研究和分析,本文探讨了生物神经网络和人工神经网络的相似之处,提取出了其中一些重要的洞见用于计算机视觉中。
- OODformer: 异常检测变形金刚
该论文提出了一种名为 OODformer 的新型 OOD 检测架构,利用 transformer 的上下文能力来区分内部分布和 OOD 样本,通过视觉注意力利用上下文嵌入提高了分类的通用性,在 CIFAR-10 /-100 和 ImageN - MM基于脉冲神经网络的仿生视觉关注技术应用于图案分类的硅视网膜研究
本文回顾了视觉注意机制的生物学背景,并介绍了一个基于基于感知机制和脉冲神经网络的事件视频分类的案例研究,初步结果表明其有效性。
- CVPR强化学习的无监督视觉注意力与不变性
本研究提出了一种基于视觉前景的增强学习 (domain generalization) 方法,可以将环境中的干扰 (视觉噪声) 最小化,从而使得强化学习效果更佳。该方法基于无监督学习,使用关键点检测和视觉注意力机制进行前景提取并获得干净且不 - AAAI基于文本图像关系传播的 BERT 模型用于多模态命名实体识别(Multimodal NER)
本文介绍了一种文本 - 图像关系传播的方法,将其集成到多模态 BERT 模型中,通过使用软或硬门选择视觉线索,并提出了一种多任务学习算法,实现对多模态命名实体识别数据集的训练,最终在该数据集上实现了最先进的性能。