- 统一自编码与屏蔽扩散
提出了一种统一的自监督目标(Unified Masked Diffusion),通过在单一的自编码框架中结合基于补丁和噪声的破坏技术,使用扩散变换器(DiT)培训过程中引入额外的无噪声、高掩膜表示步骤,并在后续时间步骤中使用混合的掩膜和噪声 - 自监督先训练用于可迁移多模态感知
这篇论文介绍了一种用于可转移多模式表示学习的自监督预训练范式,利用 NeRF 支持的遮蔽自动编码器(NS-MAE)来提供高效且高性能的微调的预训练模型初始化,通过在神经辐射场(NeRF)中进行遮蔽多模式重建来训练模型以重建缺失或损坏的多模式 - 利用主要掩码提案增强无监督语义分割
基于无监督语义分割的 PriMaPs-EM 算法能够通过将图像分解为语义有意义的掩膜,并使用随机期望最大化算法拟合类别原型,实现在各种预训练模型和数据集上竞争性的无监督语义分割结果,优化了当前最先进的无监督语义分割流水线。
- 能否通过对比学习改进嵌入
使用 SIMSKIP,一种新颖的对比学习框架,通过改善输入嵌入来提高后续任务的性能。SIMSKIP 利用之前训练过的编码器模型的输出嵌入作为输入,通过理论分析证明其不会导致下游任务错误的上限增加。在不同的开放数据集上的实验证明 SIMSKI - 层次化文本到图像的自我监督对齐,以提高组织病理学表示学习
本文介绍一种新颖的基于语言相关的自监督学习框架,即 Hierarchical Language-tied Self-Supervised (HLSS) 方法,用于医学图像的层次化表示学习。通过结合领域特定的自然语言信息与图像的层次化视觉表示 - 自我监督表示学习在 3D-PLI 中用于神经纤维分布模式的研究
应用自我监督表示学习的完全数据驱动方法,以 3D-PLI 图像为基础,对神经纤维结构进行特征化。
- 解构用于自监督学习的去噪扩散模型
我们研究了最初用于图像生成的去噪扩散模型(DDM)的表示学习能力。我们的研究目的是逐步分解 DDM,将其转化为经典的去噪自编码器(DAE)。我们观察到现代 DDM 的很少组件对于学习良好的表示是至关重要的,而许多其他组件则不是必要的。我们的 - SwitchTab:交换式自编码器是有效的表格学习模型
SwitchTab 是一种新颖的自我监督方法,专门用于捕捉表格数据中的潜在依赖关系,并通过使用经过预训练的鲜明嵌入来提高下游任务的性能,同时可通过可视化来创建可解释的表示。
- 学习独立嵌入时间序列片段
基于自监督表征学习策略的遮蔽时间序列建模引起了人们的广泛关注。我们提出使用简单的补丁重构任务和独立嵌入每个补丁的简单补丁级 MLP。此外,我们引入互补的对比学习方法以高效地捕捉相邻时间序列信息。与最先进的基于 Transformer 的模型 - 利用视点引导的球面映射改善语义对应
自监督表征学习在提取图像特征方面取得了近期的进展,但在面对对称性和重复部分等具有挑战性的图像特征时仍存在限制。为了解决这些限制,本文提出一种新的语义对应估计方法,将有区分度的自监督特征与三维理解相结合,通过弱几何球面先验进行补充。与更复杂的 - 深度学习辅助白内障手术视频分析
通过上述五个贡献,本论文解决了白内障手术视频分析中的重要挑战,为构建高效的上下文感知系统铺平了道路。
- PointJEM: 通过联合熵最大化来减少特征冗余的自监督点云理解
PointJEM 是一种自我监督表示学习方法,通过最大化不同部分之间的联合熵,减少点云领域嵌入特征的冗余信息,实现学习到的特征变量成对独立,从而显著减少特征的冗余,并在分类和分割等下游任务中取得了有竞争力的性能。
- PointMoment:基于混合矩的自监督表示学习 3D 点云
PointMoment 是一种用于点云自监督表示学习的新框架,它利用高阶混合矩损失函数而不是传统的对比损失函数,计算特征变量的高阶混合矩并强制其分解为各自矩的乘积,从而使多个变量更加独立并最小化特征的冗余。该方法还结合了对比学习方法,用于最 - 感知分组解析器:通过迭代分组构建感知
人类视觉识别系统显示了惊人的能力,能够将视觉信息压缩为一组包含丰富表示的令牌,无需标签监督。本文提出了感知分组标记器,一种完全依赖于分组操作的模型,用于提取视觉特征和进行自监督表示学习,其中一系列分组操作被用于迭代地假设像素或超像素的上下文 - 自监督解缠:利用数据增强中的结构
自我监督表示学习经常使用数据增强来诱导对数据的 “风格” 属性的某种不变性。然而,由于在训练时通常不知道下游任务,很难事先推断哪些属性实际上是 “风格”,并且可以安全地丢弃。为了解决这个问题,我们引入了一种更有原则性的方法,旨在解开 “风格 - 自我监督表示学习的随机场增强
基于高斯随机场的新型局部变换用于自监督表征学习,并通过改进的数据增强方法,在 ImageNet 和 iNaturalist 数据集上实现了准确性的提升。
- 分子掩码图模型中分词器和解码器的重新思考
基于蒙版图建模的自监督表示学习在分子图领域具有出色的表现。本文从分子图的分词器、分图掩盖和图自编码器三个关键组件入手,总结了常见的分子分词器,通过对其作为重构目标的角色进行研究评估。然后,探索了引入表达力强的解码器对于自编码器表示学习的潜力 - EMNLPGRENADE: 自我监督表示学习的图中心语言模型
通过图中心化的自监督学习算法,GRENADE 模型在文本属性图上能够有效地捕捉信息性的文本语义和结构上下文信息,出现了优于现有方法的结果。
- CrIBo:跨图像对象级自监督学习
通过利用最近邻检索来进行自监督表示学习在以物体为中心的图像中已被证明具有益处。然而,当应用于以场景为中心的数据集时,这种方法面临限制,其中图像中的多个物体仅在全局表示中隐含捕获。这种全局引导可能导致对象表示的不可取缠结。此外,即使以物体为中 - 随机数据投影的自监督表示学习
使用无监督学习通过重建随机数据投影来学习高质量数据表示,该方法适用于不同数据模态和网络架构,并超过了多个最先进的无监督学习基线模型的性能。