UniAR：统一人类视觉内容中的注意力与反应预测

Dec, 2023

UniAR：统一人类视觉内容中的注意力与反应预测

UniAR: Unifying Human Attention and Response Prediction on Visual Content

Peizhao Li, Junfeng He, Gang Li, Rachit Bhargava, Shaolei Shen...

TL;DR人类行为建模方面取得的进展涉及对隐含的、早期的感知行为（如注意力）以及明确的、后期的行为（如主观评分 / 喜好）的理解。然而，大部分先前的研究都集中在隔离地建模隐含和明确的人类行为上。我们能否建立一个统一的人类注意力和偏好行为模型，可在各种类型的视觉内容中可靠地工作？这样的模型将能够预测主观反馈，如整体满意度或审美质量评级，以及潜在的人类注意力或互动热图和浏览顺序，从而使设计师和内容创作模型能够优化其创作以实现以人为中心的改进。在本文中，我们提出了 UniAR - 一个统一的模型，可以在不同类型的视觉内容上预测隐含和明确的人类行为。UniAR 利用了一种多模态变换器，具有每个方面的不同预测头，并预测注意力热图、扫描路径或浏览顺序，以及主观评级 / 喜好。我们在涵盖自然图像、网页和图形设计的多样公共数据集上训练 UniAR，并在不同图像领域和各种行为建模任务上取得了领先的性能。潜在应用包括即时提供对界面 / UI 设计 / 图像有效性的反馈，并作为奖励模型进一步优化设计 / 图像创作。

Abstract

Progress in human behavior modeling involves understanding both implicit, early-stage perceptual behavior such as human attention and explicit, later-stage behavior such as subjective ratings/preferences. Yet, most prior research has focused on modeling implicit and explicit human beha

human behavior modeling implicit behavior explicit behavior uniar multimodal transformer

发现论文，激发创造

多模式统一关注网络用于视觉语言交互

本研究提出了一种统一的注意力模型，能够同时捕捉多模态特征的内部和跨模态之间的相互作用，并输出相应的注意力表示。通过堆叠这样的统一注意力块，我们获得了深度多模态统一注意力网络 (MUAN)，可以无缝地应用于视觉问答 (VQA) 和视觉定位任务。通过在两个 VQA 数据集和三个视觉定位数据集上评估 MUAN 模型，结果表明 MUAN 在两个任务上都实现了顶级性能。

Aug, 2019

行动之前起身：利用人类的视觉注意力进行持续学习

本文介绍了在 DeepMind Lab 的三维迷宫中，通过训练代理使用原始图像以及与基于实时谱残差技术生成的显著性地图相叠加的凝视图像，探索利用人类注意力聚焦来进行决策的有效性，并研究了在环境噪声下的迁移学习表现。

Jul, 2018

面向未曾见过的动作识别的通用表示

本文提出了使用大规模训练数据构建通用表示来实现跨数据集无样本训练的新型动作识别方法，并在 UCF101 和 HMDB51 基准测试中取得显着的改进。

Mar, 2018

基于相对关注模型的人类交互预测

本研究提出了一种相对注意力模型，用于预测人之间的相互作用，通过采用三元耦合深度递归结构以及建立有效的人 - 人相互作用表示和全局相互作用表示，同时分配更高的重要性给与正在发生互动的相关区域，该模型在两个公共数据集上的广泛实验证明了其在预测人与人之间相互作用时具有更高的准确性。

May, 2017

利用计算注意力预测人类注意力

本研究提出了人类注意力变压器（HAT），它是一种单一模型，预测两种形式的注意力控制，并通过使用一种新颖的基于转换器的架构和一种简化的凹面视网膜，实现了类似于人类动态视觉工作记忆的时空意识，同时避免了离散化固定目光。HAT 在计算注意力方面设定了新方向，并在各种注意力需求场景中更好地预测人类行为，具有广泛的适用性。

Mar, 2023

UniBrain：将图像重建与字幕生成统一于一个扩散模型之中从人脑活动

通过人脑活动诱发的视觉刺激来进行图像重建和字幕生成，UniBrain 提出了一种统一的人脑活动扩散模型，通过 fMRI 转换文本和图像潜在信息，并通过 CLIP 引导反向扩散过程，从而生成具有低级细节和高语义真实感的图像和字幕。在图像重建和图像字幕生成方面，UniBrain 在定性和定量方面都优于现有方法，并首次在自然场景数据集（NSD）上报告了图像字幕生成结果。此外，消融实验和感兴趣区域（ROI）分析进一步展示了 UniBrain 的优越性，并为视觉诱发脑解码提供全面的见解。

Aug, 2023

人工神经网络中的被动关注机制预测人类视觉选择性

通过 79 个实验和 7,810 个实验参与者的数据研究，揭示了同人类视觉选择性估计有显著重叠的被动关注技术，指出使用引导反向传播方法探测相对简单的神经网络架构产生的输入可视化是预测共享成分的最佳选择，这些结果帮助我们通过比较不同模型在图像信息选择性方面的相似性和差异性来评估领先的神经网络模型作为人类视觉模型的生物学和心理学的有效性。

Jul, 2021

人类注意力建模的趋势、应用与挑战

人类注意力建模在近年来已被证明特别有用，不仅用于理解视觉探索的认知过程，还可以为旨在解决各个领域问题的人工智能模型提供支持。本综述对近期将人类注意机制整合到当代深度学习模型中的努力进行了理性概述，并讨论了未来的研究方向和挑战。

Feb, 2024

ATRank: 一种基于注意力机制的用户行为建模框架用于推荐

本文提出了一种名为 ATRank 的基于注意力机制的用户行为建模框架，主要用于推荐系统，通过将异构用户行为投影到多个潜在语义空间中，使用自注意力在行为之间进行影响，并通过 vanilla attention 提供给下游应用程序使用，实验证明 ATRank 具有更好的性能和更快的训练速度，进一步探索 ATRank 使用一种统一模型同时预测不同类型的用户行为，显示出与高度优化的单独模型相当的性能。

Nov, 2017

统一对比融合变压器用于多模态人类动作识别

提出了一种新的多模态融合架构 UCFFormer，它能够整合具有不同分布的数据以增强人类动作识别 (HAR) 的性能；通过使用统一 Transformer 来捕捉嵌入特征在时间和模态领域之间的相互依赖关系，并引入了分解的时间 - 模态注意力来高效执行自注意力，在各种模态之间减少特征分布上的差异，从而生成在语义上对齐的特征进行信息融合；在 UTD-MHAD 和 NTU RGB+D 两个流行数据集上进行的性能评估表明，UCFFormer 通过显著的优势超越竞争方法，实现了最先进的性能。

Sep, 2023