- 代码 - LLMs(不)学习的重要研究
研究发现,大型语言模型(code-LLMs)只能编码特定子集的输入令牌之间的关系,并且无法编码语法令牌与标识符之间的关系。此外,与预训练模型相比,微调模型对这些关系的编码较差,并且拥有数十亿参数的更大模型对于代码信息的编码显著较少。
- InstructRL4Pix:通过强化学习训练图像编辑的扩散
通过使用增强学习引导图像编辑方法(InstructRL4Pix)来生成由目标对象的注意力地图引导的图像扩散模型,该方法通过计算注意力地图之间的距离作为奖励函数来最大化奖励模型的输出,并使用邻近策略优化(PPO)对扩散模型进行微调,以实现基于 - 从零到英雄:通过注意力图筛选增强零样本新视角合成
利用 Zero-1-to-3 模型生成真实的图像,通过增强关注图和自我注意机制集成源视图信息,改善视图合成的几何一致性和可靠性。
- 查询和关键字总是相关的吗?Transformer 波函数的案例研究
我们通过比较标准注意力机制和仅依赖于位置的简化版本(而不涉及查询和键)在参数化变分波函数领域的性能,在减少计算成本和参数使用的同时取得了竞争性结果。此外,通过分析标准注意力机制生成的注意力图,我们证明了在优化结束时,注意力权重变得有效地与输 - CVPR人们交互指导机器注视点的做法并不总能提高人工智能团队的分类准确率
通过介绍可解释的人工智能(Explainable AI)领域的研究,表明关注图和特征归因图已经成为解释人工智能决策中重要输入特征的常见方式。本研究基于 CHM-Corr 方法,通过构建一个交互界面,使用户能够直接编辑 CHM-Corr 提供 - AAAI基于扩散的高效图像编辑与即时关注蒙版
我们在这篇论文中提出了一种名为 InstDiffEdit 的新型高效图像编辑方法,它利用现有扩散模型的跨模态注意力能力,在扩散步骤中实现了即时的遮罩引导。我们将 InstDiffEdit 与 SOTA 方法进行了广泛的实验证明,结果显示它在 - AAAI探索开放集识别的多样化表示
基于对开集识别的理解并发现学习辅助表示可以从理论上降低开放空间风险,本文提出了一种名为多专家多样注意力融合(MEDAF)的新模型,该模型以辨别性方式学习多样的表示,通过多个学习的专家进行自适应融合,并使用评分函数来识别未知样本,实验证明该模 - 注意细节:跨分辨率知识蒸馏
在数字病理学中,为了解决大型全幻灯片图像的计算限制问题,该研究提出了使用知识蒸馏和注意力图来提高模型性能,实验证明该方法在不同图像分辨率下显著改善了模型性能。
- 扩散模型中通过重用注意力图实现快速推理
通过结构化地重用注意力映射,我们的训练无关方法在保持样本质量的同时,显著降低了文本到图像扩散模型的迭代过程中的延迟。
- CONFORM:高保真文本到图像扩散模型所需的全部是对比度
通过对比背景下处理此问题的新方法,我们有效地展示了我们的方法在处理各种不同类型的文字到图像扩散模型中的对象、特征和背景组合时的多功能性、高效性和灵活性。
- 面向视觉 Transformer 的类别判别注意力图
深度神经网络的解释性方法是关键组成部分,用于检查和探索神经网络,增加我们对其的理解和信任。我们介绍了一种高度敏感于目标类别的后期解释方法,即类别判别性注意力图(CDAM),它通过缩放注意力分数来确定相应的令牌对分类器预测的相关性。与像素遮蔽 - TVT: 在小数据集上无需训练的视觉 Transformer 搜索
本文提出了一种无需训练的视觉 Transformer(ViT)架构搜索方法,通过使用教师模型,利用具有零成本代理的方式搜索更好的 ViT,并在各种小型数据集和搜索空间上展开了大量实验,证明了该方法优于现有的无训练搜索方法。
- 双流注意力变换器用于下水道缺陷分类
我们提出了一种双流多尺度视觉转换器 (DS-MSHViT) 架构,用于高效下水道缺陷分类,并联训练了一个 RGB 分支和一个运动分支的单一网络,通过自注意力正则化来利用 RGB 和运动流的互补优势,以增强 RGB 的关注地图从而集中于相关输 - R&B:区域和边界感知的零样本基于文本生成图像
这篇论文研究了利用扩散模型进行零样本生成的文本到图像转换方法,提出了一种基于区域和边界感知的交叉注意力引导方法,通过渐进调节扩散模型的注意力图来生成与输入布局信息相对应的高保真度、与文本输入高度兼容、准确解释布局指令的图像。实验证明,该方法 - 探索 DINO:合成孔径雷达图像的新特性与限制
通过使用非标记的合成孔径雷达(SAR)数据,预先训练自监督学习模型(ViT-based DINO 模型)并对其进行微调以预测高分辨率土地覆盖地图,本研究重点探究了 Self-Distillation with No Labels(DINO) - 时空注意力与偏移非局部搜索
通过结合非本地搜索的质量和预测偏移量的范围,本文提出了一种称为移位非本地搜索的搜索策略,用于高效地计算视频的注意力图,以改善视频帧对齐质量和视频去噪结果。
- ICCV保持简洁:谁说监督 Transformer 受注意力不足之苦?
我们通过提出一种通用的池化框架,将卷积网络和视觉变换器的默认池化机制替换为简单的基于注意力的池化机制 SimPool,从而改善了预训练和下游任务的性能,并在所有情况下提供了能够描绘物体边界的注意力分布图。
- 人类和卷积神经网络在场景分类时是否关注相似的区域:任务和图像类型的影响
通过研究人类与卷积神经网络 (CNN) 的注意力图之间的相似性,揭示了人类注意力的影响因素,发现任务类型和图像特征对人类与 CNN 的相似性产生显著影响,并强调在比较人类和 CNN 的注意力时需要考虑人类因素。
- 生成提示模型用于弱监督目标定位
通过生成提示模型,将弱监督的对象定位问题转化为一个条件图像降噪过程,从而学习可代表对象的嵌入特征并生成多尺度高质量注意力图,从而在 CUB-200-2011 和 ILSVRC 数据集上取得了较好的性能。
- 扩散模型中的语言绑定:通过注意力地图对齐增强属性对应关系
该论文提出了 SynGen 方法,通过句子结构分析识别实体和修饰词,并使用新的损失函数来促进交叉注意力图与语言绑定相一致,从而有效提高了文本到图像生成的正确性。