- 关于学习图像压缩中颜色空间效应的研究
通过使用 YUV、LAB 和 RGB 颜色空间之间的比较以及它们对学习图像压缩的影响,我们报告了通过在不同数据集上进行实验对 SLIC 模型进行评估,并将结果与最先进的图像编解码器进行比较。
- 基于图像处理的森林火灾检测
使用图像处理技术提出了一种新颖的森林火灾检测方法,该方法使用基于规则的颜色模型进行火焰像素分类,其中使用了 RGB 和 YCbCr 颜色空间,并采用标准方法测试算法性能,结果表明该方法具有更高的检测率和较低的误报率,可用于实时森林火灾检测。
- 运动物体分割:只需 SAM(和 Flow)
通过将光流与 Segment Anything 模型 (SAM) 结合,本文研究了两种模型,一种使用光流作为输入,另一种使用 RGB 作为输入,这两种简单的方法在单个和多个物体分割基准测试中,凭借其出色的性能超过了所有先前的方法,同时还将这 - 将事件融入 RGB 和 LiDAR:用于场景流的分层视觉动态融合
本论文提出了一种新的分层式视觉 - 运动融合框架用于场景流,通过将事件作为 RGB 和 LiDAR 之间的桥梁,探索同质化空间来融合跨模态的互补知识,从而逐步改善场景流。
- 点云的重要性:重新思考不同观测空间对机器人学习的影响
通过在 17 个不同的接触丰富的操作任务上进行广泛实验证明,针对机器人学习中的不同观察空间,特别是 RGB、RGB-D 和点云,点云方法在性能上通常超过 RGB 和 RGB-D,不论是从头开始训练还是利用预训练。此外,研究结果表明,点云观察 - 人类行为分析的缩小差距:合成三模数据的流程
通过利用基于 RGB 图像得出的人体分割掩码,结合自动获取的热度和深度背景,利用条件图像到图像转换技术,我们生成了三模态数据,为具有有限数据、恶劣照明条件或隐私敏感领域的模型训练提供了支持。
- 去除与选择:通过粗糙到细化融合改进 RGB - 红外目标检测
本文介绍了一种新的粗到细的特征融合策略,利用 RGB 和红外图像的互补特性,通过去除冗余光谱和动态特征选择,提高了目标检测的性能。通过构建名为 RSDet 的新型目标检测器,并在三个 RGB-IR 目标检测数据集上进行广泛实验,验证了我们方 - 一体化:RGB、RGB-D 和 RGB-T 显著目标检测
提供了一个统一解决 RGB、RGB-D 和 RGB-T 三种数据类型的显著目标检测任务的创新模型框架,并基于此框架提出了一个高速高性能的轻量级 SOD 模型 AiOSOD。
- HalluciDet:通过特权信息对人员检测进行 RGB 模态的幻觉
通过提出 HalluciDet,一种 IR-RGB 图像翻译模型,将重点放在对象检测的准确性上,而不是重构 IR 模态下的原始图像,从而绕过了访问 RGB 数据的需求,从而提高了检测性能。
- MM双色空间下的深度图像融合
本文研究了基于双色彩空间的图像协调方法,将混合的 RGB 特征与解开的 Lab 特征相结合,减轻协调过程中的负担。网络包括一个 RGB 协调主干,一个 Lab 编码模块和一个 Lab 控制模块。
- 基于 RGBD 图象的图像风格化实现
研究应用深度信息与 RGB 图像的热力图在风格迁移中,提出了一种新的方法,通过与传统神经网络的比较,发现其实现更为真实的图像。该方法可应用于各种计算机视觉应用中,以产生更逼真的图像。
- TAFNet:一种针对 RGB-T 人群计数的三流自适应融合网络
本文提出了一个名为 TAFNet 的三流自适应融合网络,使用配对的 RGB 和热像图进行人群计数,实验结果在 RGBT-CC 数据集上表现出超过 20%的改进。
- CVPR多分辨率异常值汇聚用于高粱分类
本文介绍了利用传感器(如 RGB,热像仪和高光谱相机等)实现自动化高通量植物表型分析的方法,详细介绍了 Sorghum-100 数据集,以及使用动态异常值汇聚方法对该数据集进行对不同品种的作物图像分类的方法。
- NTIRE 2021 爆发式超分辨率挑战赛:方法和结果
本论文回顾了 NTIRE2021 挑战赛的爆发式超分辨率,并介绍了两个轨道的数据,一是基于合成数据的轨道,二是基于移动相机的实际轨道,并在最终测试阶段,6 支队伍提交了具有多样性的解决方案,表现最佳的方法将爆发式超分辨率任务的最优性能提升到 - 基于空间上下文深度网络的自动驾驶多模态行人检测
本文提出一种基于 RGB 和热图像的、具有新颖空间上下文深度网络结构和多模态特征嵌入模块的行人检测端到端多模态融合模型,其能够在真实世界的日夜低光照条件下实现高效而准确的检测。
- VPN++:重新思考视频姿态嵌入以理解日常活动
提出了 Video-Pose Network (VPN) 用于识别日常活动,该模型包含两个不同的方向:一个是通过特征层面的蒸馏将 Pose 知识转移到 RGB 中,另一个是通过注意层面的蒸馏模仿姿势驱动的注意。该模型在 4 个公共数据集上表 - HPERL:基于 RGB 和 LiDAR 的三维人体姿态估计
使用 RGB 和 LiDAR 技术的端到端架构,以前所未有的准确度预测绝对的三维人体姿势,同时采用 PedX 的二维姿态注释生成三维预测。
- ICCVEPIC-Fusion: 基于视听时空绑定的第一人称动作识别
提出了一种多模态融合架构,采用中层融合以及稀疏地对融合表示进行时间采样,将 RGB、Flow 和 Audio 三种模态进行融合,重点研究了多模态时间绑定,逐步改进,取得最先进的结果。
- CVPR流动中起舞:双重流行动检测
本文提出一种基于新层的双流动作检测网络,将 RGB 和光流嵌入到单个双合一流网络中,使用运动条件层从流图像中提取运动信息,然后利用运动调制层生成调制 RGB 特征的变换参数,从而提高检测准确性。
- 从单目深度图像进行目标检测和语义分割
本研究证明,在计算机视觉中,利用单目图像估计出深度信息与 RGB 图像结合能够显著提高目标检测和语义分割的精度。