基于语义表示的语言偏差图像分类评估

ICLRJan, 2022

基于语义表示的语言偏差图像分类评估

Language-biased image classification: evaluation based on semantic representations

Yoann Lemesle, Masataka Sawayama, Guillermo Valle-Perez, Maxime Adolphe, Hélène Sauzéon...

TL;DR通过引入基于认知科学文献的方法工具，本研究介绍了一项基准测试来评估人工模型的偏差，并使用这个基准测试评估了 CLIP 模型。我们发现，虽然单词嵌入的图像会扭曲 CLIP 模型在不同类别级别上的图像分类，但这种影响不依赖于图像和嵌入单词之间的语义关系，这表明 CLIP 视觉处理中的语义词表示与图像表示不共享。

Abstract

Humans show language-biased image recognition for a word-embedded image, known as picture-word interference. Such interference depends on hierarchical semantic categories and reflects that human language processi

image recognition language bias semantic categories clip model shared semantic representation

发现论文，激发创造

通过视觉表示精炼视觉 - 语言模型中的偏差感知

通过使用简单的线性探测器，本研究探讨了如何从 CLIP 的嵌入中有效地提取特定任务的核心特征，结果显示 CLIP 的文本表示往往受到了有偏向的预训练数据中具有误导性的相关性的影响，实证结果表明相比文本嵌入，依赖于 CLIP 的视觉表示更为实用，可克服内置偏见。

May, 2024

自然语言语料库所自动生成的语义带有类似人类的偏见

这份研究首次展示，应用标准机器学习到日常语言时会形成类似于人类的语义偏见，同时该研究还提供了用于评估文本偏见的新方法。

Aug, 2016

对比视觉语言模型中的感知分组

本篇论文研究视觉 - 语言模型在理解图像中物体所在区域和组合视觉相关部分方面的表现，提出一种最小的修改方案，获得了先进的无监督分割结果和对冗余相关性的鲁棒性。

Oct, 2022

利用语言建模识别和解释非对齐的人类概念表示

先通过有监督的表示对齐方法确定两组个体是否共享某一类别的基础，然后解释了它们在哪些方面存在差异；探究了先天性失明对非感知和感官相关的语言领域的词汇意义改变以及相关的语义转变；利用 GloVe 语言模型和线性探测分析揭示了盲人与视觉人群对动作、视觉、触觉相关动词以及跨感官知识获取动词的概念语义的差异。

Mar, 2024

在 CLIP 中区分视觉和文本概念

本篇论文探讨了 CLIP 网络上单词图片和自然图片表征的纠缠度，发现其图像编码器可以将单词图片与描述相符的自然图片匹配，但同时处理字母的过程是与含义处理分离的，使用者还提出了一种有效的侧重隔离或排除拼写能力的表征子空间的方法，并对其在检索任务和生成图片方面进行了验证。

Jun, 2022

两种效应，一个触发器：关于对比式视觉语言表示学习中的模态差异、物体偏见和信息不平衡

鉴于多模态差异，对象偏差及信息不平衡等因素，本研究通过对比视觉语言模型进行深入调查并提出了量化对象偏差的方法，揭示了信息不平衡是产生多模态差异和对象偏差的驱动因素。

Apr, 2024

名称背后的含义：超越图像识别分类指数

本论文使用非参数方法建立图像之间的关系，设计出一种基于视觉语言模型的图像分类方法，使模型在图像分类问题上能更好地解决零样本和半监督问题，将语义信息映射到图像分类上，并在 ImageNet 数据集中取得了约 50% 的性能提升。

Apr, 2023

通过无监督预训练学习的图像表示包含类人偏差

本文通过研究基于大规模未标记图像数据的机器学习方法，并发现其可能对种族，性别，体重，残疾和少数种族存在的偏见和刻板印象进行了分类和嵌入，从而证明了这些模型可能会自动学习社会偏见。

Oct, 2020

基于层级结构的图像嵌入方法用于语义图像检索

该研究提出了通过将图像映射到类别嵌入中以学习语义鉴别性特征的方法，从而提高图像检索结果的语义一致性。结果显示在 CIFAR-100，NABirds 和 ImageNet 上，学习到的图像嵌入大大提高了图像检索结果的语义一致性。

Sep, 2018

语言对齐的视觉表示预测自然学习任务中的人类行为

本研究探讨类别学习和奖励学习实验中的泛化技能和预测人类行为的最有效表示方法，结果表明，深度学习模型从文本和图像数据中训练得到的表示方式优于仅从图像中训练得到的表示方式，强调了语言在塑造人类认知中的作用。

Jun, 2023