DMT-JEPA：用于联合嵌入预测结构的判别性掩码目标

May, 2024

DMT-JEPA：用于联合嵌入预测结构的判别性掩码目标

DMT-JEPA: Discriminative Masked Targets for Joint-Embedding Predictive Architecture

Shentong Mo, Sukmin Yun

TL;DR我们介绍了一种新的基于 JEPA 的 masked modeling 目标 DMT-JEPA，通过计算特征相似性和使用轻量级交叉注意力头，将语义相似的邻域图像作为目标来生成具有辨别力的潜在目标，从而弥补了 JEPA 在理解局部语义方面的不足。

Abstract

The joint-embedding predictive architecture (JEPA) recently has shown impressive results in extracting visual representations from unlabeled imagery under a masking strategy. However, we reveal its disadvantages,

joint-embedding predictive architecture visual representations local semantics dmt-jepa masked modeling

发现论文，激发创造

联合嵌入预测架构的图像自监督学习

该研究论文使用了无需手工制作的数据增强方法来学习高度语义化的图像表示，引入了 I-JEPA 框架，通过从单个上下文块中预测同一图像中的各种目标块的表示来实现自我监督学习。实验结果表明，与 Vision Transformers 相结合，I-JEPA 具有高度的可扩展性和强大的下游性能。

Jan, 2023

A-JEPA：联合嵌入预测架构能够聆听

本文提出了一种基于掩模建模原则将视觉模型成功应用于音频的方法，通过在潜在空间中进行预测。我们引入了基于音频的联合嵌入预测架构（A-JEPA），这是一种简单的自监督学习方法，通过上下文编码器对可见音频频谱图块进行编码，并预测在精心设计的位置上采样的区域的表示。在多个音频和语音分类任务上，A-JEPA 在结构上采用了 Vision Transformers，我们发现它具有极强的可扩展性，并创造了新的最先进性能，超过了使用外部监督预训练的其他最新模型。

Nov, 2023

联合嵌入预测架构的图级表示学习

Graph-JEPA 是首个针对图领域提出的 Joint-Embedding Predictive Architectures (JEPAs) 模型，通过掩码建模学习不同子图的嵌入表示，并且采用预测编码子图在二维平面上单位双曲线上坐标的替代训练目标，验证结果表明 Graph-JEPA 能够学习具有表达力并在图分类和回归问题中具有竞争力的表示。

Sep, 2023

S-JEPA：基于动态空间注意力的无缝跨数据集迁移

通过研究使用联合嵌入预测架构 (JEPAs) 在脑电信号处理中实现无缝跨数据集迁移的挑战，本文提供了一项探索性研究。我们在一个包含 54 个受试者的数据集上进行了研究，并通过三个不同的脑 - 机接口范式 (运动想象、ERP 和 SSVEP) 评估了模型的下游性能。研究结果初步证明了 JEPAs 在脑电信号编码中的潜力，并强调了空间滤波在精确下游分类中的重要性，同时揭示了预训练示例长度对下游性能的影响但掩蔽大小不影响。

Mar, 2024

T-JEPA：轨迹相似度计算的联合嵌入预测架构

本文介绍了 T-JEPA，一种利用 Joint-Embedding Predictive Architecture（JEPA）进行自监督轨迹相似性计算的方法，通过在表示空间中对轨迹信息进行采样和预测，使模型能够推断轨迹的高级语义缺失部分，无需依赖领域知识或人工工作。在三个城市轨迹数据集和两个 Foursquare 数据集上进行了大量实验证明了 T-JEPA 在轨迹相似性计算上的有效性。

Jun, 2024

人脑自我监督学习动态功能连接的联合嵌入式掩模自编码器

图神经网络在学习动态功能连接方面显示出潜力，但是在训练时获取大量标记的临床数据往往资源密集，使实际应用困难。因此，借助无标签数据在标记稀缺环境中进行表征学习变得至关重要。本文介绍了一种空时联合嵌入掩码自编码器（ST-JEMA），它借鉴了计算机视觉中的联合嵌入预测架构（JEPA），并对动态图进行重构，以实现考虑时间视角的更高级语义表示的学习。利用大规模的 UK Biobank 数据集进行自监督学习，ST-JEMA 在动态功能连接中显示出卓越的表示学习性能，证明了在预测表型和精神诊断方面优于先前方法的优越性，并且对缺失数据场景下的时间重构的有效性。这些发现突出了我们的方法作为一种强大的用于利用标记稀缺 fMRI 数据的表示学习方法的潜力。

Mar, 2024

探索联合嵌入预测架构在一般音频表示学习中的设计选择

本文研究自监督通用音频表示学习的问题，探讨了在此任务中使用联合嵌入预测架构（JEPA），通过将输入的 mel 频谱图分割为上下文和目标两部分，计算每个部分的神经表示，并训练神经网络从上下文表示中预测目标表示。通过对各种音频分类基准进行广泛实验评估，包括环境声音、语音和音乐下游任务，我们研究了该框架中的几个设计选择，并研究了它们的影响。我们特别关注输入数据的哪部分被用作上下文或目标，并通过实验证明这显著影响模型的质量。尤其是，我们注意到在图像领域的一些有效的设计选择会导致音频上的性能下降，从而凸显了这两种模态之间的重要差异。

May, 2024

Point-JEPA：面向点云自监督学习的联合嵌入预测架构

近期在点云领域中自监督学习方面的最新进展表现出显著的潜力。然而，这些方法常常面临一些问题，包括长时间的预训练时间、对输入空间的重构以及需要额外的模态。为了解决这些问题，我们介绍了一种专门针对点云数据设计的联合嵌入预测架构 ——Point-JEPA。为此，我们引入了一种排序器，它能够对点云标记进行排序，以在目标和上下文选择期间高效计算和利用标记的接近性。排序器还允许在上下文和目标选择之间共享标记的接近性计算，从而进一步提高效率。在实验证明，我们的方法在避免了对输入空间进行重构或使用额外模态的同时，取得了与最先进的方法相竞争的结果。

Apr, 2024

JEP-KD：基于联合嵌入预测架构的知识蒸馏用于视觉语音识别

此研究介绍了一种先进的知识蒸馏方法，使用联合嵌入预测架构（JEPA），命名为 JEP-KD，旨在更有效地利用音频特征进行模型训练，以缓解视觉语音识别（VSR）任务的挑战，并展示了其在不同 VSR 平台上显著改善模型性能的潜力。

Mar, 2024

学习和利用世界模型在视觉表示学习中

通过预测缺失部分的输入，我们提出了 Image World Models 这一方法，它不仅限于掩蔽图像建模，而且能够学习预测潜在空间中全局光度变换的效果。同时，我们展示了通过微调适应 IWM 的预测世界模型，以解决多样化任务的能力，并说明了学习使用 IWM 的好处，可以控制学习表示的抽象层级，学习不变表示（如对比方法）或等变表示（如掩蔽图像建模）的性质。

Mar, 2024