- AAAI基于文本图像关系传播的 BERT 模型用于多模态命名实体识别(Multimodal NER)
本文介绍了一种文本 - 图像关系传播的方法,将其集成到多模态 BERT 模型中,通过使用软或硬门选择视觉线索,并提出了一种多任务学习算法,实现对多模态命名实体识别数据集的训练,最终在该数据集上实现了最先进的性能。
- MM用正确的图像区域回答问题:一种视觉关注正则化方法
本文提出一种名为 AttReg 的视觉关注正则化方法,用于更好地在 VQA 中进行视觉基础。AttReg 首先确定对于问题回答而言关键的图像区域,然后利用基于掩蔽的学习方案来规范化视觉关注,使其更专注于这些被忽略的关键区域。在三个基准数据集 - CVPR通过提炼图像 - 文本匹配模型,实现更加扎实的图像字幕生成
本研究提出了一种基于 Part-of-Speech 增强图像 - 文本匹配模型的方法(称为 POS-SCAN),以提高图像字幕准确性,并且探讨了图像 - 文本匹配分数作为奖励用于更加接近实际对象的图像字幕训练。
- IJCAI探索和提取跨模态信息以用于图像字幕生成
本研究提出基于 Transformer 的全局与局部信息探索与提炼方法,在跨模态视角下探究图像字幕生成,并在 COCO 测试集上取得了 129.3 的 CIDEr 分数。
- SpotNet: 自注意力多任务网络用于目标检测
本研究旨在通过多任务学习方式训练一个网络实现视觉注意力,使用半监督学习方式生成前 / 背景分割标签,进而训练目标检测模型,利用分割地图实现自我注意机制,获得在交通监控领域两个数据集上显著的 mAP 改进,UA-DETRAC 和 UAVDT - ICML关注组等变卷积网络
提出了一种基于视觉注意力机制的等变卷积方法 AGECN,解决了对称模式下位置和姿态关系不明确的问题,实现了对图像数据集的高效表征。
- TurkEyes: 一个基于 Web 的工具箱用于众包关注数据
本文研究了一种基于网络的工具箱,通过 Crowdsourcing 更加便捷地采集视觉注意力数据,并比较了不同数据采集工具的使用情况。
- CVPR自动驾驶车辆中基于人对车辆的建议的实现
本文提出了通过自然语言引导来提高深度神经控制网络在自动驾驶车辆中的应用,采用了一种可接受建议的端到端车辆控制器,该控制器通过注意机制将控制行为与建议中的显著物体联系起来,并通过自然语言指南来增强网络的性能。
- 学习面向目标的双重注意力,实现 RGB-T 跟踪的稳健性
本文提出了两种用于 RGB-T 目标跟踪的视觉关注机制,其中包括利用 RGB 和热感数据的局部关注和多模态目标驱动关注估计网络的全局关注。在两个 RGB-T 基准数据集上的实验验证了我们提出算法的有效性。
- 基于人类中心的动态 GIF 情感识别
本文介绍了一种基于人类视觉注意力机制和关键点的 GIF 情感识别网络,并证实了利用 GIF 图像中的人类信息能够显著提升识别性能。
- 基于显著性引导的图像 - 句子匹配注意力网络
该研究旨在探讨图像和句子之间的匹配问题,提出了一种 Saliency-guided Attention Network 架构,包括视觉注意力和文本注意力模块,能够有效地提高多模态数据表示的准确性,并在 Flickr30K 和 MSCOCO - ECCV强化注意力:利用人类的注意力进行图像字幕生成
使用两种类型的注意力机制:从上至下的语言传达信息和自底向上的视觉信号,通过提出 Boosted Attention 模型实现将它们整合在图像字幕生成任务中,从而提高了效果。
- 层次化视觉语言表示的多任务学习
该研究提出了一种多任务学习的方法,将来自各种不同数据集的任务共享视觉语言表示。结果表明该方法在图像字幕检索、视觉问答和视觉定位方面比先前的单任务学习方法表现更好,同时通过可视化注意力图分析了学习到的分层表示。
- NIPS深度关注追踪:通过反馈学习实现
该研究论文提出了一种基于视觉注意力的训练深度分类器的互补学习算法,利用正反馈操作生成注意力图来作为正则化项,该机制能够使分类器学习到关注具有外观变化鲁棒性的目标对象的区域,实验证明该注意力跟踪方法在大规模基准数据集上的性能表现优于现有的基于 - ECCV自动驾驶车辆的文本解释
本研究提出了一种基于神经网络、视觉的注意力模型和视频 - 文本模型的内向性解释方法,通过控制器和解释模型之间的注意力导图,生成可解释的行驶模型动作的文本描述,并与外向性解释模型的效果进行比较。
- ECCV通过联合建模注视和场景显著性来通用关注估计:连接注视,场景和注意力
本文研究了如何在自然社交场景下,通过多任务学习方法精准地估计人们在图像中的视觉关注与注视点,特别考虑了视线方向及目标超出画面的情况。该方法在多项测试中取得了优异表现,扩展了现有数据集,公开发布。
- 基于事件相机的物体识别的注意力机制
本文提出了基于视觉关注的两种事件视觉注意力模型,一种通过跟踪视野内的事件活动来定位关注区域,另一种基于 DRAW 神经模型和全微分注意力程序,使用 Phased LSTM 识别网络作为基线参考模型并在四个数据集上进行验证,获得了在平移和尺度 - ECCV使用视觉注意聚合的深度不平衡属性分类
提出一种基于 multi-label 分类、视觉注意力机制、以及解决数据类别不平衡问题的损失函数等的方法,实现了在 PETA 和 WIDER-Attribute 数据集中的人体属性识别,并取得了最先进的效果。
- CVPR人员再识别的和谐注意力网络
本研究通过在卷积神经网络中联合学习软像素注意力和硬区域注意力以及特征表示,优化了未对齐人物图像中的人物重识别,相对于现有的一些方法具有明显的优越性。
- MAttNet: 模块化注意力网络用于指代表达理解
本文提出了一种通过使用模块化组件和多种注意力机制,实现对自然语言描述的图像区域定位的方法,该方法在特征抽象、指向性和篮球场景等任务中都优于以往最先进的模型。