章鱼的世界：报道偏见如何影响语言模型对颜色的感知

EMNLPOct, 2021

章鱼的世界：报道偏见如何影响语言模型对颜色的感知

The World of an Octopus: How Reporting Bias Influences a Language Model's Perception of Color

Cory Paik, Stéphane Aroca-Ouellette, Alessandro Roncone, Katharina Kann

TL;DR本文研究了文本预训练的固有局限性，提出了报告偏差作为该限制的原因之一，并分析了多模态训练在解决该问题方面的效果。研究使用了 Color Dataset 并比较了文本中的颜色分布，语言模型捕获的分布以及人类感知中的颜色分布，结果表明文本中的 reporting bias 负面影响并固有限制了单一模态训练，而多模态模型可以减轻此类影响。

Abstract

Recent work has raised concerns about the inherent limitations of text-only pretraining. In this paper, we first demonstrate that reporting bias, the tendency of people to not state the obvious, is one of the causes of this limitation, and then investigate to what extent →

text-only pretraining reporting bias multimodal training color dataset performance differences

发现论文，激发创造

大型章魚是否仍會放大報告偏差？來自典型顏色判斷的證據

本研究探讨了较大语言模型（LLMs）中的颜色方面的常识表达是否存在报道偏差，结果表明相对于较小的语言模型（如 RoBERTa，GPT-2），LLMs 在确定对象的典型颜色方面表现更好，更接近于人类判断。

Sep, 2022

预训练的单模态和多模态模型中的视觉常识

本文研究了图像和语言的单模态和多模态模型对视觉显著属性的度量精度，使用 Visual Commonsense Tests 数据集验证了多模态模型在属性分布重构中优于单模态模型，但仍然存在报告偏差问题，适当增加模型大小并不能提高视觉常识的性能，表明关键在于数据。

May, 2022

面向视觉 - 语言数据集的报告偏见：通过解耦对象 - 属性关联进行双模态增强

通过双模态增强方法在视觉 - 语言数据集中解决报告偏倚问题，提升物体 - 属性理解并改善零样本检索任务效果。

Oct, 2023

多模态偏见：在视觉语言模型中引入一个能评估除性别和种族以外刻板印象的框架

本文提出了一个名为 MMBias 的基准数据集，用于评估自我监督多模态模型中的偏差，并介绍了一种旨在缓解偏差的去偏置方法。

Mar, 2023

双倍劣势：预训练视觉与语言模型中的偏见复合

该研究扩展了文本偏差分析方法，以调查多模式语言模型，并分析了这些模型学习的内部和跨模态关联和偏见。具体而言，该研究表明 VL-BERT 展示出性别偏见，往往更喜欢强化刻板印象而不是忠实描述视觉场景。

Apr, 2021

关于模态偏差的识别和减少

本文研究了在多模态分类系统中影响模型性能的模态偏差问题，通过构建两个基于 Out-of-Distribution 协议的数据集和提出一种自适应的 plug-and-play 损失函数方法，在彩色数字识别、视频动作识别和视觉问答三个任务上实现了明显的性能改进，证明了该方法在减少模态偏差问题方面的优越性。

Feb, 2022

图像胜过言辞：从因果中介视角理解和减轻视觉语言模型中的偏见

通过因果中介分析，我们提出了一个框架，来测量和映射在视觉 - 语言模型中生成和传播偏见的路径，结果显示图像特征是偏见的主要贡献者，对模型偏见的减轻起到重要作用，同时能保持性能稳定。

Jul, 2024

两种效应，一个触发器：关于对比式视觉语言表示学习中的模态差异、物体偏见和信息不平衡

鉴于多模态差异，对象偏差及信息不平衡等因素，本研究通过对比视觉语言模型进行深入调查并提出了量化对象偏差的方法，揭示了信息不平衡是产生多模态差异和对象偏差的驱动因素。

Apr, 2024

基于语义表示的语言偏差图像分类评估

通过引入基于认知科学文献的方法工具，本研究介绍了一项基准测试来评估人工模型的偏差，并使用这个基准测试评估了 CLIP 模型。我们发现，虽然单词嵌入的图像会扭曲 CLIP 模型在不同类别级别上的图像分类，但这种影响不依赖于图像和嵌入单词之间的语义关系，这表明 CLIP 视觉处理中的语义词表示与图像表示不共享。

Jan, 2022

文化与语言多样性改善视觉表达

我们的研究展示了多语言语境下数据集和模型生成的图像标题之间的显著语义差异，以及不同语言训练的模型在对应语言的测试数据上表现最佳，而在多语言内容上训练的模型在所有评估数据组合上都表现良好，这对于改善图像理解的多样化感知具有重要意义。

Oct, 2023