- CVPR提高图像质量的曝光校正模型
提出了一种端到端的曝光校正模型,采用感知损失,特征匹配损失和多尺度辨别器来提高生成图像的质量并使训练更加稳定,实验结果表明其有效性。在大规模曝光数据集上,取得了最新的最优结果,并研究了图像曝光设置对画像抠图任务的影响,发现曝光过度和曝光不足 - CVPR可归因的视觉相似度学习
本文提出 AVSL 框架,用于更精确和可解释地衡量图像之间的相似度,通过基于人类语义相似性认知构建通用相似性学习范式,使用图形以及自下而上的相似性构建和自上而下的相似性推断框架,在语义层次一致性的基础上推断相似性,取得了显著的改进,并验证了 - ECCV使用深度变分自编码器进行图像超分辨率
介绍了一种新的 VDVAE-SR 模型,利用预训练 VDVAE 的迁移学习来解决图像超分辨率问题,并与其他同类模型在图像质量指标上具有相当的竞争力。
- ECCVRankSeg:基于图像类别排名的自适应像素分类分割
本文提出将分割任务分解为两个子问题:(i)图像级或视频级多标签分类和(ii)像素级排名自适应选定标签分类。
- 多模态摘要综述
本文综述了多模式自动摘要 (MMS) 领域内的现有研究,包括文本、图像、音频和视频等各种模式。除了强调用于 MMS 任务的不同评估指标和数据集之外,我们的工作还讨论了该领域中当前的挑战和未来方向。
- CVPR多模态融合 Transformer 用于端到端自动驾驶
本文提出使用多模态融合转换器 TransFuser 对图像和 LiDAR 传感器的信息进行整合以实现先进的自动驾驶技术,在 CARLA 城市驾驶模拟器中实验验证证明该方法在处理复杂场景时比传统基于几何的融合方法有更好的效果,并且在减少碰撞方 - CVPRDeepI2P: 基于深度分类的图像到点云注册
本文提出了 DeepI2P:一种新的图像和点云之间的跨模态配准方法。通过将配准问题转化为分类和逆投影优化问题,并使用分类神经网络来对点云中的每个点进行分类。通过这种方法估计相对刚性变换,进而解决了图像和点云之间特征描述缺失的问题。实验结果表 - CVPR低光环境下拍摄的闪光与非闪光图像深度降噪
本文提出了一种基于神经网络的方法,用于去噪在低光环境下拍摄的带和不带闪光灯的图像对,旨在产生高质量的场景呈现,同时保留噪声的无闪光图像的颜色和情绪,同时恢复闪光所揭示的表面纹理和细节。
- CVPR视觉手性
研究图像在镜像情况下数据分布的变化,探索其在数据增强、自监督学习和图像取证等方面的应用。
- SIGIRFashionBERT: 跨模态检索中基于自适应损失的文本和图像匹配
本研究提出了一种 FashionBERT 模型,利用预训练的 BERT 模型作为骨干网络,学习文字和图像的高级表示,在时尚文本和图像匹配中取得了显著的性能提升。
- 通过可微归纳逻辑程序设计将关系背景知识纳入强化学习
本文提出了一种基于可微分归纳逻辑编程的深度关系强化学习算法,可以从图像中有效地学习关系信息并将环境的状态呈现为一阶逻辑谓词,同时可以将专家背景知识并入学习问题中,展示了该框架在 BoxWorld、GridWorld 以及 Sort-of-C - ICLR卷积神经网络编码多少位置信息?
本文通过一系列实验发现卷积神经网络在学习卷积核的时候竟然能够隐式地编码图片中绝对位置的信息。
- 深度图像到视频自适应融合网络用于动作识别
本文提出了 Deep Image-to-Video Adaptation and Fusion Networks (DIVAFN) 模型,通过跨媒介学习和特征融合,将图像的知识迁移到视频中,用来增强视频动作识别的性能。实验证明,该方法在四种 - AIM 2019 挑战赛:基于图像去混叠的数据集和研究
本文介绍了名为 LCDMoire 的新型数据集,该数据集是 2019 年 ICCV Advances in Image Manipulation(AIM)研讨会的第一次图像去模糊挑战的一部分。该数据集包括 10,200 对合成图像(由模糊图 - AIM 2019 有约束超分辨率挑战:方法与结果
本文回顾了 AIM 2019 关于基于约束的单张图像超分辨率的挑战,主要关注提出的解决方案和结果,挑战有三个轨道,每个轨道都有数十个参与者,评估了单张图像超分辨率领域的最新技术水平。
- 基于标题感知的指代表达式物体分割
本文介绍了一种通过端到端可训练的理解网络,由语言和视觉编码器组成,从语言和图像领域提取特征表示,提出了空间感知动态滤波器来转移文本到图像的知识并有效捕获指定对象的空间信息,并采用生成的字幕网络来加强语言和视觉模块之间的通信以及改进两者的表示 - MM聚焦注意力:一种双向焦点注意力网络用于图像 - 文本匹配
提出了一种新颖的双向焦点注意力网络(BFAN),它不仅允许关注相关部分,而且将所有关注点都集中在这些相关部分上以消除无关的碎片,实现了图像与文本之间的语义对齐,表现出优越性能。
- 自适应图模型网络用于二维手部姿态估计
本文提出一种名为自适应图模型网络(AGMN)的新架构,用于从单个 RGB 图像估计 2D 手部姿势,该架构包含两个深度卷积神经网络分支,用于计算一元和双元潜力函数,随后是图形模型推断模块,用于集成一元和双元潜力。与现有的将 DCNN 与图形 - CVPR基于物理引导的定向光照下人脸修复学习
本文研究基于物理学原理的图像形成模型的深度学习架构,包括去除图像光线和校正漏光,并应用到肖像摄影数据库中。结果表明,该模型可以实现精确和可信的照明结果,并且可以推广到复杂的光照条件和挑战性姿势,包括主体未直视相机。
- CVPR通过关注机制增强显著目标分割
该研究通过迭代地关注图像补丁并进一步增强预测的分割掩模,使用基于 ConvGRU 网络的聚合策略独立估算每个图像补丁的显著性特征,实现端到端的图像分割,较现有方法表现更优,消除背景噪声和假阳性。