- 基于多模态深度学习的自然语言处理模型优化研究
通过引入多个模式层到属性模型中,整合了图像内容的语义和隐藏层。利用 Word2Vec 方法量化词向量并通过词嵌入卷积神经网络进行评估,实验结果显示该方法可以将离散特征转化为连续特征,从而降低特征预处理的复杂性,并通过卷积神经网络的优秀特征分 - 高斯图像:通过二维高斯喷洒的 1000 帧每秒图像表示和压缩
通过 2D 高斯扩散的方式,我们提出了一种开创性的图像表示和压缩范式,名为高斯图像。与 INRs 相比,我们的方法在表示性能上不逊色,并且具有最低 3 倍的 GPU 内存使用和 5 倍的拟合时间,同时提供 1500-2000 FPS 的更快 - SuperPrimitive:场景的基元级重建
从一组图像或单目视频中联合估计相机姿态和密集几何,由于其计算复杂性和固有的视觉歧义,仍然是一个具有挑战性的问题。我们通过一种新的图像表示方法 ——SuperPrimitives 来解决这个问题,这些 SuperPrimitives 是通过将 - 无注意力的扩散模型
高分辨率图像生成中的噪声扩散概率模型(DDPM)是研究的关键,通过引入扩散状态空间模型(DiffuSSM)架构来处理高分辨率图像的生成和表示,从而显著降低计算复杂度,并展示了与使用注意力模块的扩散模型相媲美甚至优于的生成图像质量和计算效率。
- DiT: 高效的视觉变压器与动态令牌路由
提出了一种数据相关的令牌路由策略用于图像令牌的动态视觉转换器 (DiT),以适应对象尺度和视觉识别的变化,并通过选择多路径特征传播来精心调整图像表达的对象尺度和视觉识别的影响,从而实现更好的性能和良好的复杂度 / 准确度平衡。
- Radon 有符号累积分布变换及其在有符号图像分类中的应用
基于运输和最优运输的数学,我们描述了一种新的图像表示技术。该方法基于图像的 Radon 变换和最近的信号表示方法 Signed Cumulative Distribution Transform 的组合,将以前与运输相关的图像表示方法推广到 - SPDER: 半周期阻尼启用物体表示
文章提出了一种称为 SPDER 的简单多层感知器神经网络结构,能够自然地学习位置嵌入,克服了传统隐式神经表示网络面临的较低频率谱偏差问题,并且速度很快、收敛到极低的损失水平,并且在图像表示中表现出与众不同的表现能力。
- 非对称式补丁采样用于对比学习
本文提出了一种新的不对称补丁采样策略,用于对比学习,以进一步增强外观不对称性以获得更好的表示,并在 COCO 数据集上实现了最先进的物体检测和实例分割性能。
- SUVR: 一种基于搜索的无监督视觉表示学习方法
提出了一种基于搜索的无监督视觉表征学习方法(SUVR),通过构建图像数据集图形并采用图形遍历定位相似图像,同时确保负样本可以从全数据集中获取,从而在无监督嵌入学习上显著优于现有方法。
- 使用超像素聚类和张量补全进行图像重建
本文提出一种基于超像素分割和张量补全的紧凑图像表示像素选择方法,该方法将图像分成几个区域以捕获重要的纹理或语义,并从每个区域选择代表性像素进行存储,实验结果表明,超像素法比均匀采样更适用于各种丢失情况。
- IJCAI利用多阶统计量的集成学习进行小样本分类
本文提出了一种叫做 Ensemble Learning with Multi-Order Statistics(ELMOS)的基于集成学习的方法,该方法使用了多个分支来创建单个学习器,并在每个分支中引入不同的顺序统计池以增加个体学习器的多样 - 医学图像分类的自监督方法:每类约 100 个标记样本的最先进性能
本研究通过采用 DINO 框架,尤其是使用非监督式学习中的图像表示来分析了医学图像分类中的无监督深度学习性能,并证明这种方法可以在使用少量标记数据(大约每类 100 个标记样本)的情况下,取得超过现有技术的性能表现。
- EMP-SSL: 迈向自监督学习一轮训练
本文介绍了一种非常高效的自监督学习方法 —— 极端多补丁自监督学习(Extreme-Multi-Patch Self-Supervised-Learning, EMP-SSL)。与大多数自监督学习方法相比,该方法通过增加每个图像实例的图像数 - ECCVGoogle 通用图像嵌入竞赛第二名解决方案
本文介绍了第二名在 Google 通用图像嵌入竞赛中的解决方案,主要探讨了数据建立,模型结构和训练策略对细粒度图像分类的影响,并在公共排行榜得分为 0.713,在私人排行榜得分为 0.709。
- 自适应局部隐式图像函数用于任意比例超分辨率
本研究提出了一种新的自适应局部图像函数(A-LIIF)模型,旨在通过采用编码器和扩展网络,建模多个局部隐式图像函数的加权组合,从而缓解局部隐式图像函数(LIIF)模型在边缘周围出现结构失真和环状伪影等问题,实现图像超分辨率的高精度重建。
- SemMAE:用语义引导的遮蔽训练自编码器
本文提出了一种 Semantic-Guided Masking 策略,通过引入语义部分将语义信息集成到 MAE 训练过程中,以学习更好的图像表示。该训练方法在各种视觉任务中都可以表现出色,特别是在 ImageNet-1k 中实现了 84.5 - CVPR超越有监督与无监督:图像表示学习的代表性基准测试与分析
本文提供一个综合性的比较不同无监督学习方法在图像特征表达方面的表现,使用线性评估、最近邻分类和聚类等多个基准测试来定量比较,分析了不同嵌入度量的均匀性、容忍性和中心内核对齐,并提出了两个新的度量。通过比较分析发现不能以单一流行的方法来代表整 - 遥感场景分类的成对比较网络
本论文提出了一种基于成对比较网络的遥感场景分类方法,该网络通过自表示和互表示来捕捉图像之间的微妙差异,实现了遥感图像场景分类任务的显著提升。
- CVPR无法窃取?那就对抗窃取!针对图像编码器的对比窃取攻击
本文提出 Cont-Steal 对无监督编码器的知识产权保护措施,实现对训练后的编码器的复制效果,旨在引起人们对自我监督学习技术知识产权保护的重视。
- 弱监督对比学习
提出了一种基于弱监督对比学习的框架 (WCL),该框架使用两个投影头进行正则的实例区分任务,一头使用基于图形的方法找到相似的样本并生成弱标签,另一头使用这些弱标签进行有监督的对比学习任务,以拉近相似图像之间的距离。WCL 旨在解决现有对比学