- 机器人中的均匀与对数正态运动:对机器人运动的感知偏好
研究分析人们对协作机器人的运动方式的偏好,探讨工业机器人的运动与人体运动之间的主要差异,并基于对数正态原理开发了模拟人类运动的程序。通过实施不同的速度轮廓在两个工业机器人中进行测试,以研究人们对不同运动方式的偏好及与机器人互动时的感知。
- 人类对稳定扩散态 v1、DALL-E 2 和 DALL-E 3 表达的情绪的改进情感调整
生成型 AI 系统的情感表达能力对于 AI 系统的有效性至关重要,特别是那些旨在支持人类心理健康的系统。本研究旨在通过设计一项调查,测量生成型 AI 表达的情感与人类感知的一致性,以回答 AI 如何成功地表达特定情感的问题。通过评估多个生成 - 揭示幻觉:理解人类对音视频深度伪造的感知
人们对深度伪造视频的感知能力进行主观研究,结果显示机器学习模型相对于人类在同样的 40 个视频上有更好的表现,而人们又往往高估了自己的检测能力。这一研究结果有助于对比人类和机器的性能、推进法医分析,并实现自适应对策。
- 无监督物体本体运动动力学预测
我们提出了一种名为 Object-Centric Kinematics (OCK) 的动态预测框架,利用了对象为中心的表示方法,并通过各种转换机制进行综合,以实现有效的对象为中心的动态建模。该模型在处理复杂场景中的对象和背景时表现出卓越的性 - 不同程度的伪造:警示对人类感知和对 LLM 幻觉参与的影响
该研究旨在通过系统地变化幻觉程度(真实,轻微幻觉,重大幻觉)并研究其与警告(警示潜在不准确性:存在与缺失)的相互作用,以理解人类对大型语言模型幻觉的感知。研究结果表明,人类按真实内容 > 轻微幻觉 > 重大幻觉的顺序排列内容的真实性,而用户 - 评估神经网络的可视连续性腐败鲁棒性相对于人类表现
我们提出了一种视觉连续的损坏稳健性(VCR)方法,允许在范围广泛且连续的变化中评估神经网络对图像损坏的稳健性,并使用两种新颖的人类感知度量标准进行评估。通过在 14 种常用图像损坏上进行实验,并与大量的人类参与者和最新的稳健神经网络模型进行 - 见者非必信者:无害扰动的空间
在深度神经网络的背景下,我们揭示了一种无害扰动空间的存在,即使应用于图像的扰动的幅度不同,也不会对原始图像的网络输出产生任何影响。具体而言,在网络中的任何线性层中,其中输入维度 $n$ 大于输出维度 $m$ 时,我们证明了连续的无害扰动子空 - 揭示可解释人工智能的自动面部表情识别中的人类相似性:一项经验性探索
深度学习在面部表情识别方面的模型表现超过了人类,本研究通过比较不同神经网络(包括一般物体分类器和面部表情识别专用模型)来探索深度神经网络与人类感知之间的相似性。使用可解释的全局人工智能方法生成热图,揭示出六种面部表情的关键面部区域,通过定量 - AAAI公平博览会:将人类感知引入集体决策
社会决策中公平性是最值得追求的原则之一,它在过去几十年中得到了广泛研究,近年来也得到了多智能体系统社区的重视。然而,这些研究往往不能充分捕捉到现实世界问题的复杂性和人们对公平性的认知。我们认为,社会规划者(设计者)不仅应该认为公平解是可取的 - 从计算色彩恒常性的角度探究色彩错觉
通过分析色彩视觉系统中的色彩恒常性和色彩幻觉知觉现象,我们修改了现有的色彩恒常性方法,使其能够更好地模拟人类视觉系统在色彩幻觉上的行为,并显示出从幻觉中提取的参数能够改善色彩恒常性方法的性能,从而超越现有的多光源算法设计。
- 跨国人工生成媒体的人类检测代表性研究
AI 生成的媒体对我们所知的数字社会构成威胁。与技术进步相比,人们对生成媒体的感知尚未得到彻底研究。本文通过针对音频、图像和文本媒体跨三个国家(美国、德国和中国)的 3,002 位参与者进行全面的调查,结果显示,最先进的赝品几乎无法与 “真 - 朝向光照估计的感知评估框架
通过进行一系列实验,我们发现现有的图像质量评估指标并不能正确地代表人们对光照估计方法的偏好,然而通过综合学习多个指标,我们可以更准确地表示人类的首选项,从而为评估未来的光照估计算法提供了新的感知框架。
- 基于自然语言处理的方法:通过理解街景图像中的深层语义特征进行人类感知的映射
利用预训练自然语言模型的新框架,结合街景图像和机器学习,深入理解人类感知和场景感受之间的关系,并发现利用深层语义特征对于人类感知研究的重要性和解释力的提升。
- 还原被遮挡的面部特征
我们提出了一种在不重复微调模型的情况下恢复遮挡面部特征的方法,通过使用 CycleGAN 架构,可以消除匹配对的要求,并且我们的重建结果与真实无遮挡记录进行了比较。评估结果表明,我们达到了与无遮挡传感器的视频相似的分数。
- EMNLP以语言为基础的视错觉衔接:视觉 - 语言模型是否像人类一样感知错觉?
通过构建包含五种视觉错觉的数据集并制定四项任务,研究发现,虽然整体对齐性较低,但更大的模型更接近人类感知且更容易受到视觉错觉的影响,这将促进对人类和机器中的视觉错觉有更深入的理解,并为未来能够更好地使人类和机器在感知和交流共享的视觉世界方面 - 固定的神经元协变性引起对抗性稳健性
通过引入自相关激活层,该研究以人类感知的特性为依据,改善了深度神经网络对敌对扰动的抵抗能力,从而提高了图像和声音识别任务的准确率并显著降低了对最新的自动 PGD 敌对攻击的脆弱性。
- ICLR从人类角度出发:人脸的人本表达
本文介绍 A View From Somewhere (AVFS) 数据集,其中包含了 638,180 个关于面部相似度的人类判断,用于学习与人类感知对齐的低维连续嵌入空间。该空间不仅可以准确预测面部相似性,还提供了人类决策过程中使用的维度 - ICLR为基于实例的决策支持学习与人类兼容的表征
本文结合度量学习和监督学习的思想,使用人类提供的三元组判断来学习人类兼容的决策重心表示,该表示与人类知觉更好地匹配,使人类能够更准确地进行预测,并在多个分类任务中通过合成数据和人类实验表明其有效性,从而获得显著提高的人类决策准确度(对蝴蝶与 - 提高模型聚焦力改善基于深度学习的合成人脸检测器性能
本文探讨深度学习与人类感知相结合后,通过熵控制模型的焦点,优化模型的分类性能,提高在未知数据上的泛化能力,同时以人类引导视觉注意力为支撑的新损失函数作为控制手段,通过合理的损失函数组合,达到在合成样本检测方面的最优性能。
- 场景文本图像超分辨率:基于内容感知损失和交叉变换块的方法
使用 Criss-Cross Transformer Blocks 和 Content Perceptual Loss,利用多尺度文本识别特征将内容意义有效地融入框架中,设计出了 TATSR 来提高文本图像的可读性和人类感知。在各种语言数据