- 税收是您所需的一切:将分类层次关系集成到对比损失中
我们提出了一种新型的监督对比损失函数,在表示学习过程中引入了分类树结构信息。该损失函数通过强制要求具有相同类标签(正样本)的图像在投影空间中比具有不同类标签(负样本)的图像更接近彼此来实现。该方法的优势在于它直接惩罚表示空间的结构,这使得在 - 通过食物理解扩散概念代数的局限性
通过食品图像领域的研究,我们分析了一个横跨概念的技术中的定性和定量模式,揭示了模型捕捉和表示烹饪多样性的能力以及模型偏见和限制的存在。
- 通过投注测试语义重要性:我敢打赌你并不是那个意思
我们的研究通过使用特征重要性、语义概念和条件独立性来形式化黑盒预测模型对于全局和局部统计重要性的定义,并通过顺序核化测试的方法对概念进行排序,从而在真实场景中提供了有效性和灵活性的框架。
- 使用反事实频率(CoF)表揭示图像分类器的捷径
深度学习中的短路问题及可解释 AI 的解决方案:引入反事实频率表的方法将示例级解释汇总成全局洞见,揭示所学习到的短路。
- CVPR图像文字协同分解用于基于文字监督的语义分割
该论文提出了一种基于文本监督的语义分割方法,通过使用仅限于图像 - 文本对而不使用密集标注的方式学习一种能够在图像内部分割任意视觉概念的模型。通过图像 - 文本对的对比学习,有效地实现了视觉分割与文本的对齐。为了解决文本对齐与语义分割之间存 - T-HITL 有效解决图像生成中的问题关联并保持整体视觉质量
生成型 AI 图像模型可能无意中生成有问题的人物表现,并可能加剧和加速现实世界中的歧视和其他危害;本文针对生成型 AI 模型中人口群体和语义概念之间的有问题关联进行研究,提出了一种新的方法论 T-HITL,既解决了这些关联问题,又保持了图像 - MM可解释的嵌入式技术用于即时视频搜索
通过集成特征嵌入和概念解释到神经网络中进行统一的双重任务学习,本论文实现了将嵌入与语义概念关联,作为视频内容解释的新方法,并在 TRECVid 基准数据集上证明了搜索结果的显著提升。
- TIBET: 文本到图像生成模型中的偏见识别和评估
我们提出了一种通用方法,通过反事实推理来研究和量化任何文本到图像生成模型和任何提示的广泛偏见和偏差,并以语义概念的形式扩展了定量评分。
- 层次语义树概念白化用于可解释的图像分类
通过在深度模型中主动注入知识,使用语义概念的层次树规范化图像数据实例的表达方式,提高模型可解释性,改善语义概念的分离,并不会对模型的分类性能产生负面影响。
- IJCAI利用解耦概念化和集合对齐进行文本 - 视频检索
本研究提出了一种名为 Disentangled Conceptualization and Set-to-set Alignment (DiCoSA) 的跨模态任务解决方法,可以将视觉实体与自然语言描述对齐,采用多个与语义概念相关的潜在因素 - 自监督视觉表示学习的堆叠联合嵌入架构
本文介绍了使用堆叠式联合嵌入架构(JEA)来学习高度可分离的语义层次表示的方法,从而产生表现出更具独特的语义概念的表示空间,证明了其在语义分类上的有效性。
- 分布语义的实用限制约束
本文研究了语言模型在 Zipf 定律背景下的统计学习限制,表明无论什么标记都会出现 Zipf 的标记分布,标记分布由两个不同频率和语义的标记组成,这些特性干扰了由分布语义驱动的统计学习过程。
- CVPR多模式图像检索的概率组合嵌入
本文在图像检索中,研究了使用多个多模态查询的检索场景,并提出了一种新的多模态概率组合器,用于检索具有多个多模态查询指定语义概念的目标图像,同时在基于 MS-COCO 数据集的新基准上评估了我们的模型表现。
- ECCV视觉语言预训练的单流多级对齐
利用对比损失进行的自监督视觉 - 语言预训练虽然有效,但由于双流体系结构仅在全局层面上对齐图像和文本表示法,因此忽略了细粒度对齐。本文提出了一种单通道体系结构,使用两个新任务在多个层次(即全局、细粒度图块 - 令牌和概念 / 语义层次)上对 - CVPR面向域泛化的基于原则的解缠方法
提出了一种名为 DDG 的方法,利用基于约束的优化形式来处理机器学习模型的泛化问题,并以有限维参数化和经验逼近的方式对其进行简化,同时提出了一种基于原始对偶算法来实现表示分离和域泛化的方法。DDG 方法可以学习到语义概念的内在表示,使其对干 - ICCV通天塔:结合图像、语言和 3D 几何学习多模视觉
本文提出了一个新的大规模数据集 WikiScenes 作为图像、文本和 3D 几何的多模态推理测试平台,利用 3D 几何提供的强约束将语义概念与图像像素和 3D 点联系起来,展示了 WikiScenes 在学习语义概念上的效用。
- 丰富的语义改善少样本学习
利用少量的『类别级别』的语言描述,结合视觉特征分形成一个瓶颈视觉特征 (混合原型) 并建立一种 Transformer 机制,以编码这两种形式的丰富语义,并且经过多个数据集的实验证明,该算法能有效提升 few-shot learning 的 - ICML强韧的语义可解释性:重新审视概念激活向量
该研究提出了一种基于 Robust Concept Activation Vectors 的诠释方法,用于评估图像分类模型的可靠性和模型是否存在系统偏差。该方法关注语义概念,如纹理、颜色和性别等,通过梯度上升来评估模型对给定概念的敏感性,并 - CVPR一种可逆的解缠结表示网络,用于解释潜在表示
提出了可逆解释网络,可以透明地应用于现有的神经网络架构,将原始表示转换为等效但可解释的表示,并通过仅草绘两个图像和无监督策略定义语义概念,以解释图像生成网络的分类和生成。
- CVPRIMRAM: 交替匹配循环注意力记忆模型用于跨模态图像 - 文本检索
本文提出一种迭代匹配循环注意力存储(IMRAM)的方法,用于捕捉图像和文本之间的细粒度对应关系,表现出了最先进的性能。