通过上下文化的 Vendi 分数指导，改善生成图像的地理多样性

Jun, 2024

通过上下文化的 Vendi 分数指导，改善生成图像的地理多样性

Improving Geo-diversity of Generated Images with Contextualized Vendi Score Guidance

Reyhane Askari Hemmat, Melissa Hall, Alicia Sun, Candace Ross, Michal Drozdzal...

TL;DR通过利用上下文化的 Vendi 分数引导（c-VSG），我们在生成图像的多样性方面取得了显著的进展，尤其是在地域表达上，为了更好地反映真实世界的地理多样性。

Abstract

With the growing popularity of text-to-image generative models, there has been increasing focus on understanding their risks and biases. Recent work has found that state-of-the-art models struggle to depict everyday objects with the true →

text-to-image generative models diversity geographic variations contextualized vendi score guidance (c-vsg)image quality

发现论文，激发创造

评估图像生成中的地理多样性差异

通过引入三个指标，我们评估了文本到图像生成系统在生成全球各地对象时的真实性、多样性和提示生成的一致性，分析了当前最先进的视觉内容生成系统中可能存在的地理偏见，并发现：（1）在提示生成非洲和西亚的对象时，模型的真实性和生成多样性较欧洲较低，（2）使用地理信息作为提示对生成的图片的一致性和多样性具有一定的负面影响，以及（3）在一些对象上，模型存在更多的区域级差异。引入这些指标是确保每个人在视觉内容创建中有积极体验的关键步骤。

Aug, 2023

上下文 - 对象分离潜空间的多样化图像字幕

本文介绍了一种基于上下文以及对象的潜在空间拆分方法，用于在跨域数据集中进行多样化的图像描述生成任务，实现了对图像上下文的多样化描述，同时通过将假的描述信息作为网络的监督信号，扩展了该网络使其可以处理新对象并在没有训练数据的情况下进行图像生成。实验结果表明该方法在 COCO 数据集上准确度和多样性表现良好。

Nov, 2020

拓宽视野：Geo-Diverse 视觉常识推理

本文构建了 Geo-Diverse Visual Commonsense Reasoning（GD-VCR）数据集，以测试视觉 - 语言模型理解文化和地理位置特定常识的能力。通过研究两种最先进的视觉 - 语言模型，我们发现它们对于非西方地区的性能显着低于西方地区，并分析了性能差异背后的原因。

Sep, 2021

检验文图生成模型图像地理代表性

本文中，我们采用众包研究来衡量使用 DALL.E 2 和 Stable Diffusion 模型对普通名词进行生成时，生成图像对全球各地表现力的代表性。我们发现，对于没有特定国名的输入，生成的图像表现美国和印度的环境最好，其他国家的表现不如其它的。如果在输入中指定国家名称，则 DALL.E 2 的表现提升了 1.44 分，Stable Diffusion 的表现提升了 0.75 分，但许多国家的总体得分仍然很低，需要未来的模型在地理上更加包容。最后，我们研究了在不进行用户研究的情况下量化生成图像在地理上的代表性的可行性。

May, 2023

建模视觉上下文是扩充物体检测数据集的关键

本研究旨在通过利用分割注释来增加训练数据中的物体实例数量，通过适当地对物体周围的视觉环境进行建模以在物体所处的正确环境中放置它们，以提高少量标记样本的 VOC'12 基准测试平均精度。

Jul, 2018

推动文本到图像模型评估中的地理包容性

通过进行大规模的跨文化研究，我们发现不同地理位置的人对地理表达、视觉吸引力和一致性的偏好存在显著差异，并且目前常用的自动评估指标不能充分考虑这种多样性。我们建议改进自动和人工评估方法。

May, 2024

上下文扩散：上下文感知图像生成

我们提出了 Context Diffusion，这是一种基于扩散的框架，使图像生成模型能够从环境中呈现的可视示例中学习。通过为查询图像提供上下文示例和文本提示，最近的工作解决了图像生成中的这种上下文学习问题。然而，当没有提示时，生成的图像的质量和保真度会降低，表明这些模型无法真正从视觉环境中学习。为了解决这个问题，我们提出了一种新颖的框架，将可视环境的编码和查询图像结构分开。这使得我们的模型能够从视觉环境和文本提示中学习，也能从其中任何一个中学习。此外，我们使我们的模型能够处理少量示例的设置，以有效地解决不同的上下文学习场景。我们的实验证明和用户研究表明，与对应的模型相比，Context Diffusion 在领域内和领域外的任务中都表现出色，从而提高了图像质量和保真度。

Dec, 2023

ObjectCompose：评估基于视觉的模型对物体与背景组合变化的弹性

通过利用视觉模型的大规模多模态训练和其广泛适应能力，我们评估当前视觉模型对不同物体与背景环境变化的鲁棒性，并利用生成模型来产生多样化的物体与背景变化，从而量化背景环境对深度神经网络的鲁棒性和泛化能力的影响。

Mar, 2024

无过滤器：对比式视觉语言模型中的文化和社会经济多样性

该研究探讨了视觉 - 语言模型中的文化和社会经济多样性，研究发现了数据训练过程中对低社会经济地位社群和文化理解的不公平现象，并提出了一种改进方法以提高文化多样性。

May, 2024

语言引导扩散模型用于视觉定位

通过去噪扩散建模的语言引导扩散框架（LG-DVG）提出了一种逐步推理的视觉定位方法，可持续改进查询 - 区域匹配，在跨模态对齐任务中以生成方式解决视觉定位，并在多个数据集上验证其超凡性能。

Aug, 2023