- 人类感知和视觉颜色差异的色彩模型比较分析
本研究通过对 RGB、HSV、HSL、XYZ、CIELAB 和 CIELUV 等多种颜色模型进行比较分析,评估它们在准确反映人类感知颜色方面的有效性,从而评价它们在准确反映视觉颜色差异和与人眼兼容的主导调色板提取方面的能力,以便应用于图像处 - VisionLLM v2:一种适用于数百种视觉语言任务的端到端通用多模态大语言模型
VisionLLM v2 是一种端到端的多模态大型模型,它在一个框架中统一了视觉感知、理解和生成。它通过一种名为 “超级链接” 的信息传输机制连接了模型与特定任务解码器,以实现灵活的任务信息传输和梯度反馈,并在多任务场景中解决训练冲突,并通 - SlowPerception: 自主驾驶中针对视觉感知的物理世界延迟攻击
该论文介绍 SlowPerception,这是针对自主驾驶感知的第一个物理世界延迟攻击,通过生成基于投影仪的通用扰动。SlowPerception 通过在环境中各种表面上战略性地创建众多幽灵物体,显著增加了非极大抑制和多目标跟踪的计算负载, - 动态视觉刺激的神经表征
人类通过不断变化的视觉刺激来感知世界,其中场景可以移动、改变外观和距离。这篇研究论文针对动态视觉刺激的大多数研究聚焦于静态刺激,限制了对人类视觉的调查。与之相反,动态视觉刺激提供了更符合生态有效性的方法,但由于时空信息的相互作用,使得解耦稳 - 利用图像理解的自我训练增强大型视觉语言模型
采用自我训练方法提高大型视觉语言模型在图像理解方面的能力,通过自动生成偏好图像描述来构建图像理解的偏好数据集,利用少量的现有数据进行自我改进,验证了其在七个不同基准测试中的有效性和潜力。
- SSGA-Net: 逐步空间全局本地聚合网络用于自动驾驶
我们提出了一种分阶段空间全局 - 局部聚合网络,用于解决快速运动或多个姿势引起的特征退化问题,并提高在在线应用中的效率。
- 多尺度深度特征统计的无意见盲图像质量评估
采用深度学习方法可以提高盲目图像质量评估(BIQA)领域的质量评估,但这些方法通常需要使用大量的人为评分数据进行训练。为了弥合这一差距,本文提出了一种将预训练视觉模型的深度特征与统计分析模型结合的多尺度深度特征统计(MDFS)模型,用于实现 - 跨模态 3D 生成自动化人类视觉疾病诊断
利用人工智能方法将功能性磁共振成像(fMRI)解码为可视的 3D 图像,实现对 fMRI 数据的自动临床分析。
- 图像目标导航的变形金刚
利用生成式 Transformer 模型,通过联合建模图像目标、摄像头观察和机器人过去的动作来预测未来的动作,从而实现对于长时间跨度的图像目标导航任务的稳健的、无需与环境实时交互的目标导向导航策略。
- CVPR传感器无关深度估计的深度提示
通过解耦输入模态(例如图像和深度),我们设计了一种新颖的深度提示模块来减轻测量偏差,提供绝对尺度深度图,并通过广泛的评估证明了其有效性。
- 机器狗的垃圾分割和属性分析
利用四足机器人狗作为自主代理解决室内外不同环境中的垃圾管理和回收挑战,通过废物分割和属性分析方法,准确确定垃圾的状态,提高夹取能力,并通过包含 GSA2D 数据集的广泛实验,全面分析 GSA2Seg 的有效性。
- Groma:针对多模态大语言模型的本地化视觉标记
Groma 是一个多模式大型语言模型,具有以图像感知为基础的细粒度视觉理解能力。它能够执行区域级任务并将图像与文字进行关联,通过在图像中定位兴趣区域并将其编码成区域标记的方式实现。此外,Groma 还利用 GPT-4V 和视觉提示技术创建了 - EyeFormer:使用 Transformer 引导的强化学习预测个性化扫描路径
通过使用 Transformer 模型和深度强化学习算法,我们提出了 EyeFormer 模型,可以预测个体用户的视觉扫描路径,并在图形用户界面布局优化等方面有广泛应用。
- 自动驾驶的单目三维车道检测:近期进展、挑战和展望
自动驾驶中 3D 车道检测在提取道路的结构和交通信息方面起着关键作用,基于单目视觉的 3D 车道检测是自动驾驶领域的重要研究方向之一,但在完全可靠的算法开发方面仍然有很大的提升空间,本综述分析了当前 3D 车道检测研究领域的当前成果和主要限 - CVPR对扩散合成目标的神经网络稳健性进行基准测试
我们建立了视觉感知稳健性的严格基准,通过合成图像进行评估,引入了生成模型作为数据源来合成具有多样化背景、纹理和材料的困难图像,该基准称为 ImageNet-D,实验结果表明 ImageNet-D 对于多种视觉模型都导致了显著的准确率下降。
- PuzzleVQA: 通过抽象视觉模式诊断语言模型的多模态推理挑战
通过对抽象模式的基本概念进行评估,我们发现大型多模态模型在简单抽象模式上无法很好地泛化。通过对大型多模态模型的推理挑战进行系统分析,我们发现主要瓶颈在于较弱的视觉感知和归纳推理能力。
- MindEye2: 共享主体模型实现 1 小时数据的 fMRI-to-Image
使用仅 1 小时的 fMRI 训练数据展示了高质量的知觉重建,我们通过在 7 个受试者上进行预训练并在新受试者上进行微调的方法,通过功能对齐和 CLIP 图像空间的映射,实现了对知觉的准确重建。
- 色彩是否是人类视觉的光子数量?一项关于视觉感知的量子认知研究
我们研究了量子测量过程中的范畴感知现象,发现传统的范畴感知机制与量子测量过程的结构有关。我们将这一发现应用于颜色的视觉感知,并认为颜色可以像光子一样被视为人类视觉感知的光量。通过将现实物理、刺激和感知者期望之间的复杂互动看作是感知的基础,我 - 计算优先的噪音鲁棒视觉感知
我们提出了一种光信号处理方案,在检测之前通过适当设计的线性变换器对光信号进行空间重新分布,以增强视觉感知任务的检测噪声鲁棒性,并通过 MNIST 分类的基准测试进行了验证。这种计算优先的检测方案可以推动广泛应用于工业和国防领域的红外机器视觉 - 提升社交机器人对受控与自然人机交互的视觉感知
社交机器人使用视觉感知来理解用户和环境,本研究使用深度学习模型改进了社交机器人的视觉感知功能,并通过实验评估了该功能对用户交互性能和体验的影响。