描述图像：量化和预测视觉语言处理中人类信号的变异性快慢

ACLFeb, 2024

描述图像：量化和预测视觉语言处理中人类信号的变异性快慢

Describing Images $\textit{Fast and Slow}$: Quantifying and Predicting the Variation in Human Signals during Visuo-Linguistic Processes

PDF

Ece Takmaz, Sandro Pezzelle, Raquel Fernández

TL;DR图像与人类行为之间存在复杂的关系，人类的行为表现如眼动和图像描述时开始描述的时刻等表明了丰富的变化。然而，目前预训练模型的训练中几乎完全忽略了此类变化，因此需要进一步研究。本文利用同时收集的荷兰图像描述和眼动数据进行了研究，探索了视觉 - 语言信号变化的性质，并发现它们彼此相关。基于此结果，我们假设变化部分源于图像的属性，并探讨了预训练视觉编码器编码的图像表示能否捕捉到这种变化。我们的结果表明，预训练模型在一定程度上能够做到这一点，但程度较弱至中等，这表明这些模型缺乏关于何种刺激对人类而言会更加复杂以及导致人类输出变化的偏见。

Abstract

There is an intricate relation between the properties of an image and how humans behave while describing the image. This behavior shows am

image humans variation visuo-linguistic signals pretrained models

发现论文，激发创造

图像字幕中的人类注意力：数据集和分析

研究通过使用新的包含视觉图像和口头描述的数据集，比较了人类在自由观看和图像描述任务中的注意力差异以及注意力部署机制，并分析了软注意机制与人类注意力之间的相似性。最终表明人类注意力与当前的软注意机制仍存在较大差距，并且将软注意机制与视觉显著性进行集成，可以在 Flickr30k 和 MSCOCO 基准测试中显著提高模型的性能。

Mar, 2019

大规模跨语言研究：视觉限制对语言选择描述的影响

本研究通过对四种语言中的五种语言特征进行大规模、多语言的调查研究，并给出了一种新颖的方法，通过分析 600k 张图像和 3M 张图像的标题，证明了视觉背景对语言使用的影响，并在数字表达的研究中发现了不同视觉条件下语言表达的相似模式，为语言生成应用提供了参考。

Feb, 2023

文化与语言多样性改善视觉表达

我们的研究展示了多语言语境下数据集和模型生成的图像标题之间的显著语义差异，以及不同语言训练的模型在对应语言的测试数据上表现最佳，而在多语言内容上训练的模型在所有评估数据组合上都表现良好，这对于改善图像理解的多样化感知具有重要意义。

Oct, 2023

语言对齐的视觉表示预测自然学习任务中的人类行为

本研究探讨类别学习和奖励学习实验中的泛化技能和预测人类行为的最有效表示方法，结果表明，深度学习模型从文本和图像数据中训练得到的表示方式优于仅从图像中训练得到的表示方式，强调了语言在塑造人类认知中的作用。

Jun, 2023

图像描述中的跨语言差异与相似性

通过对英语、荷兰语和德语图像描述的跨语言比较，发现众包工作者对图像的熟悉程度对图像描述的具体性有明显影响。

Jul, 2017

动态视觉刺激的神经表征

人类通过不断变化的视觉刺激来感知世界，其中场景可以移动、改变外观和距离。这篇研究论文针对动态视觉刺激的大多数研究聚焦于静态刺激，限制了对人类视觉的调查。与之相反，动态视觉刺激提供了更符合生态有效性的方法，但由于时空信息的相互作用，使得解耦稳定图像特征和运动表征的困难增加。为了解决这个问题，在动态输入情况下，我们明确地解耦了人脑中静态图像表征和运动表征的建模。三个结果证明了这个方法的可行性。首先，我们展示了视觉运动信息（如光流）可以从 fMRI 测得的脑活动中预测（或解码）出来。其次，我们展示了可以使用这个预测运动来使用基于运动条件的视频扩散模型（其中运动由 fMRI 脑活动驱动）逼真地使静态图像动画化。第三，我们展示了在相反方向上的预测：现有的视频编码器可以进行微调，从视频图像中预测 fMRI 脑活动，并且相较于图像编码器能更有效地进行预测。这项基础工作为解释人类大脑如何处理动态视觉信息提供了一种新颖且可扩展的框架。

Jun, 2024

基于语义表示的语言偏差图像分类评估

通过引入基于认知科学文献的方法工具，本研究介绍了一项基准测试来评估人工模型的偏差，并使用这个基准测试评估了 CLIP 模型。我们发现，虽然单词嵌入的图像会扭曲 CLIP 模型在不同类别级别上的图像分类，但这种影响不依赖于图像和嵌入单词之间的语义关系，这表明 CLIP 视觉处理中的语义词表示与图像表示不共享。

Jan, 2022

人类和 LLMs 中的视觉对象命名、描述和量化

当前的视觉与语言大型语言模型（VLLMs）在捕捉人类命名偏好方面的能力存在问题，尤其在需要高级推理能力的任务中，例如指定量词。

Mar, 2024

促使视觉 - 语言模型实现高效视频理解

本研究提出了一种简单但强大的基准线以有效地适应预训练的 I-VL 模型，并利用其强大的资源 - hungry 视频理解任务的能力进行最小化的训练，通过几个随机向量连续提示向量进行优化，将视频相关任务转化为与预训练目标相同的格式。对于行动识别，动作定位和文本 - 视频检索的 10 个公共基准测试，尽管优化参数显著减少，但在封闭集，少量样本和零样本情况下，我们实现了与现有方法相当或最新的性能，实验上进行了广泛的消融研究以分析关键组件以与静态图像和视频之间的差距。

Dec, 2021

情绪心理理论：快速视觉处理与缓慢语言推理的桥梁

在 Emotions in Context（EMOTIC）数据集上，评估了最近的大规模视觉语言模型（CLIP，LLaVA）和大语言模型（GPT-3.5）中嵌入的情绪常识知识。使用一组 872 个与 26 个情绪类别相关的物理社交信号描述和 224 个情绪显著环境背景描述构建了与情绪感知相关的 “叙述性字幕”，并评估了在图像 - 语言 - 情感任务中使用这些字幕的效果。零样本视觉语言模型的实验表明，结合 “快速” 和 “慢速” 推理是改进情绪识别系统的一种有前途的方法，但与在 EMOTIC 数据集上训练的以往研究相比，零样本情绪心理理论任务仍存在差距。

Oct, 2023