- 高斯 - 类激活映射解释器在目标检测中的高效简明应用
为了解决可解释人工智能(XAI)中目标检测模型快速提供合理解释的挑战,我们引入了高斯类激活图解释器(G-CAME)。我们的方法利用所选层的激活图并应用高斯核突出预测目标的关键图像区域,高效生成简明的显著图。与其他基于区域的方法相比,G-CA - 动态提示学习:解决文本为基础的图像编辑中的交叉注意力泄漏问题
基于大规模的文本到图像生成模型,本研究针对图像编辑的问题,通过动态提示学习 (DPL) 方法修复交叉注意力图,实现对特定对象的精细图像编辑,防止对其他图像区域的意外更改。通过广泛的评估,DPL 方法在多个指标上取得了卓越的结果,尤其是在复杂 - 医学视觉问答中的本地化问题
文章提出了一种针对医学图像的视觉问答模型,该模型能够考虑上下文并回答关于图片区域的问题,实验结果表明该方法在三个数据集上优于现有方法。
- 预测可能的运动模式进行无监督的多目标分割
该论文提出了一种新的无需人工干预的多物体图像分割方法,该方法可以从静止图像中提取物体,但使用视频进行监督学习,其关键洞察是预测可能包含运动模式的图像区域,超越了测试时间使用运动的方法,在模拟和真实世界基准上显示出最先进的无监督目标分割性能。
- 你看到的就是你分类的:黑盒归因
在黑盒神经网络的基础上,通过训练第二个网络来预测对预备的黑盒分类器的贡献,并将这些贡献以只显示与分类器相关部分的蒙版的形式提供,我们的方法可以直接在单个前向传递中生成非常明显的类特定蒙版。
- 无检测弱监督分离定位
本文提出一种名为 “基于分离的定位” 的方法,不需使用在弱监督区域定位中常见的预先训练的目标检测器,仅从图像和相关联的自由文本对中直接学习,能够有效地定位文本中的图像区域,并取得了不错的效果。
- ICLR限制信息流:用于归因的信息瓶颈
本研究使用信息瓶颈概念进行属性分析,通过添加噪声来限制信息流并量化图像区域提供的信息量,并在 VGG-16 和 ResNet-50 上对比了十种基线方法,发现我们的方法在五个设置中均优于所有基线。
- ICCV深度上下文关注人 - 物互动检测
提出了一种上下文关注框架,通过学习上下文感知的人和对象外观特征,并采用自适应方法选择相关实例中心的上下文信息以突出可能包含人物 - 物品交互的图像区域,从而在三个数据集上超越现有最佳方法。
- VisualBERT:一种用于视觉和语言的简单高效基准线模型
VisualBERT 是一个简单灵活的框架,由一系列 Transformer 层组成,可以对输入的文本和相关的图像区域进行自我注意力对齐。该论文提出了两种针对预先训练 VisualBERT 的视觉语言模型目标,经过在四项视觉语言任务上的实验 - 像素的声音
PixelPlayer 是一种利用大量无标注视频进行学习的系统,该系统能够学习定位产生声音的图像区域,并将输入的声音分离成代表每个像素声音的组件。实验结果表明,我们提出的混合和分离框架在音源分离方面优于几种基线模型。
- EMNLP多模态神经机器翻译中图像有效性的实证研究
本文在多模态翻译任务(英文图片翻译德文)中比较了多种注意力机制,并评估了模型利用图像改进翻译的能力,虽然取得了 Multi30k 数据集上超越最先进水平的成绩,但我们也发现并报告了机器在翻译时表现出不同的不当行为。
- CVPR具有自然语言查询的视觉定位和检测的判别式双模网络
该研究提出了一种基于区分式双模神经网络 (DBNet) 的方法来实现自然语言及视觉表述中的视觉实体定位,通过为分类器提供丰富的负例样本进行训练,结合广泛的文本短语,正确地将图像区域与文本短语成对为正负例,据实验证明,该方法比现有最先进方法在 - 一种用于人物再识别的孪生长短时记忆体架构
本文提出了一种新颖的孪生 LSTM 结构,可以顺序地处理图像区域,并通过利用上下文信息增强局部特征表示的区分能力,有效地解决了多个摄像头视图下的行人匹配问题,取得了与最先进方法相媲美的良好效果,为视觉监控领域的研究提供了新思路。
- 通过迭代内省实现视觉概念识别和定位
该论文提出了一种基于卷积神经网络和 Class Activation Mapping 等方法的、自我检查图像中信息区域、并在迭代分类中关注对分类问题有用的区域的方法,可在多个数据集上实现有竞争力的甚至最先进的结果。
- CVPR视觉问答的焦点区域:何处寻找
本文提出一种方法,通过选择与基于文本的查询相关的图像区域来学习回答视觉问题。该方法在回答 ' 什么颜色 ' 等需要评估特定位置以及 ' 什么房间 ' 等需要选择性地识别信息图像区域的问题方面展示出显著的提升。我们的模型在 VQA 数据集上进 - CVPR基于结构化深度边缘检测的影子优化
本文提出了一种基于 CNN 学习的阴影区域恢复框架,利用阴影边缘的本地结构和图像区域的复杂交互来计算阴影 / 明亮度量,进而通过最小二乘优化问题进行阴影恢复,实现了在不同条件下收集的主要阴影基准数据库上的最先进结果。
- CVPR深层结构模型语义分割的高效分段训练
本文提出了一种改进图像语义分割性能的方法,通过使用上下文信息学习 Patch-Patch 和 Patch-Background 的语义相关性,使用带有条件随机场的 CNN 对邻近 patch 之间的语义相关性进行建模,并采用高效的分段训练方