HYPE:生成模型人眼感知性评估基准
本文提出一个系统研究深度生成模型的偏差和泛化的框架,并通过认知心理学实验方法探讨其生成新属性和组合的特点与人类心理学的相似之处。作者发现这些模式与常用模型和结构一致。
Nov, 2018
在这项研究中,作者们使用基于众包的注释任务和心理物理学技术来评估可解释的计算机视觉算法的透明度质量,与没有人类参与的质量度量进行比较,并发现众包实验提供了一种稳健的质量评估方法。同时,文中提到在解释性方法排名、以及对人类是否有用方面,没有人类参与的质量度量与实际情况不符,为了获得对解释性的真实评估,应该在人类-机器学习交互的自然环境中进行评估。
Nov, 2019
本研究旨在系统研究各种基于图像的生成模型,通过在人类感知上度量图像逼真度,发现现有指标与人类感知存在巨大差距;同时也发现现有指标无法适当检测到模型对数据的记忆现象;针对这些问题,我们提出了一种更可靠的特征提取器,并且释放了全部生成的图像数据集、人类评估数据以及计算 16 种公共指标的模块化库,以便更好地促进生成模型的发展和评估。
Jun, 2023
利用定性和定量指标以及用户研究,本论文主要研究了生成模型在面部图像生成中的有效性和不足之处,并提出了一个框架来审核生成的面部图像的特征。通过对最先进的文本到图像扩散模型生成的面部进行应用,我们发现面部图像生成存在的限制包括对文本提示的忠实度、人口统计不平衡和分布偏移。此外,我们还提出了一种分析模型,以了解训练数据选择如何影响生成模型的性能。
Sep, 2023
通过人类语义知识和眼动实验研究假图像检测的可能性,结果显示人们在感知伪造样本时倾向于关注图像的更局部区域,与观看真实图像时更分散的观察模式形成对比。
Mar, 2024
本研究解决了多模态AI模型中面部印象偏见的问题,探讨了数据集规模对该偏见的影响。通过分析43个CLIP视觉语言模型,发现模型在面部印象偏见方面的表现与社会偏见的共享程度密切相关,尤其是在大型数据集上,模型能够复现更精细的社会偏见。这一发现提示在使用预训练模型进行科学研究时,需考虑数据集的策划问题。
Aug, 2024
本研究填补了人类观察者与视觉模型在3D形状推断任务中对齐评估的空白。通过采用认知科学的实验设计,研究发现人类在识别不同视角的相同或不同物体时表现显著优于现有视觉模型。这一发现揭示了人类在处理挑战性任务时的独特时间分配及认知策略,对模型优化具有重要潜在影响。
Sep, 2024
本研究解决了人类观察者与视觉模型在3D形状推理任务中的对齐问题。通过借鉴认知科学的实验设计,构建了超过2000个独特的图像集,并收集了来自500多名参与者的35K试验行为数据,结果显示人类在此任务中的表现显著优于所有视觉模型。这一发现强调了人类在应对复杂试验时的独特处理能力,潜在影响深远。
Sep, 2024
本研究解决了人类在区分真实与AI生成面孔时的感知差异,为此采用了眼动追踪技术进行实验分析。研究发现,参与者对AI生成的面孔能够以76.80%的准确率进行区分,并在怀疑图像为伪造时会更加仔细地观察图像。这为理解人类对AI生成媒体的感知提供了重要见解。
Sep, 2024