BRI3L:一个用于辨识和定位错觉感知区域的亮度错觉图像数据集
该研究分析了预训练卷积神经网络中的中间特征图如何提高感知质量,并提出了两种新的公式来评估深度CNN学习到的特征,发现使用这些特征能更好地预测人类质量判断, 进一步展示了利用该方法来选择深度特征用于形成新的损失函数可以提高单图超分辨率问题的图像重构质量。
Dec, 2018
利用HYPE生成照片的新的人类基准检测,可以有效的度量生成模型的真实性,通过随机采样的视觉输出测量视觉知觉的门限,可以排除众多启发式或预训练的词嵌入的错误干扰,并且能够有效监测出训练过程中模型的任何细微变化,且模型性能排名能保持一致性和可复制性。
Apr, 2019
通过提出基于交错延伸错觉的新型数据损坏方法,通过 MNIST、高清 MNIST 和轮廓物体图像测试证明,即使是最先进的深度学习模型也很难应对因人类认知现象而导致的数据损坏,其中 DeepAugment 技术可以显著提高模型的健壮性,并揭示了更好的模型表现具有更强的眼-停止特性,这与神经科学发现一致。
Aug, 2022
本文介绍了一种通过利用视错觉来评估深度学习模型在逻辑解释方面的能力的新方法,并建立了一个名为 InDL 的基准测试数据集,利用六种经典的几何光学错觉创建比较框架,以量化深度学习模型的逻辑解释能力,为模型改进提供可操作的见解。
May, 2023
利用现成的文本到图像扩散模型,我们提出了一种简单的零通道方法来合成多视角光学幻象。经过逆扩散的过程中,我们估计了噪声并结合这些噪声估计对图像进行去噪。理论分析表明,该方法适用于能够被写成正交变换的视角,其中包括置换。这引出了视觉易位的概念——一种在像素重新排列下会改变外观的图像。此方法还自然地扩展到具有多于两个视角的幻象。通过定性和定量的实验结果,我们展示了该方法的有效性和灵活性。
Nov, 2023
通过分析色彩视觉系统中的色彩恒常性和色彩幻觉知觉现象,我们修改了现有的色彩恒常性方法,使其能够更好地模拟人类视觉系统在色彩幻觉上的行为,并显示出从幻觉中提取的参数能够改善色彩恒常性方法的性能,从而超越现有的多光源算法设计。
Dec, 2023
Vision Language Models are tested on the IllusionVQA dataset, revealing their performance and weaknesses in comprehension and soft localization tasks, particularly in the context of optical illusions and In-Context Learning.
Mar, 2024
通过研究深度神经网络(DNNs)在三维感知挑战中是否具备视角理解(VPT)能力,发现尽管DNNs在分析场景和物体的基本三维属性方面表现良好,但在VPT任务中与人类存在明显差距,这一挑战表明当前DNNs的训练方法和架构适用于学习基本的场景和物体三维属性,但不擅长像人类一样推理这些属性。
Jun, 2024
通过研究大型视觉语言模型(LVLMs),本论文确定了对象幻觉的一个根本原因是对辨别性局部图像特征的注意力不足。基于此,我们提出了全局和局部注意力组装(AGLA)方法,该方法通过同时探索用于响应生成的全局特征和用于视觉辨别的局部特征,从而减轻对象幻觉。大量实验证明,AGLA方法能够一致地减轻对象幻觉并提高LVLM在各种辨别性和生成性基准任务中的感知能力。
Jun, 2024
为了提高视觉语言模型(VLMs)的可信度并更好地解决其幻觉问题,我们创建了一个新的评估数据集,称为BEfore-AFter幻觉数据集(BEAF),并引入了新的指标:True Understanding (TU),IGnorance (IG),StuBbornness (SB),和 InDecision (ID)。通过图像编辑模型操纵视觉场景信息,并根据场景变化设计指标,我们可以清楚地评估VLMs是否能正确理解给定的场景,以观察其感知能力。
Jul, 2024