自监督视觉表示学习的堆叠联合嵌入架构
该研究论文使用了无需手工制作的数据增强方法来学习高度语义化的图像表示,引入了 I-JEPA 框架,通过从单个上下文块中预测同一图像中的各种目标块的表示来实现自我监督学习。实验结果表明,与 Vision Transformers 相结合,I-JEPA 具有高度的可扩展性和强大的下游性能。
Jan, 2023
Graph-JEPA 是首个针对图领域提出的 Joint-Embedding Predictive Architectures (JEPAs) 模型,通过掩码建模学习不同子图的嵌入表示,并且采用预测编码子图在二维平面上单位双曲线上坐标的替代训练目标,验证结果表明 Graph-JEPA 能够学习具有表达力并在图分类和回归问题中具有竞争力的表示。
Sep, 2023
本文研究自监督通用音频表示学习的问题,探讨了在此任务中使用联合嵌入预测架构(JEPA),通过将输入的 mel 频谱图分割为上下文和目标两部分,计算每个部分的神经表示,并训练神经网络从上下文表示中预测目标表示。通过对各种音频分类基准进行广泛实验评估,包括环境声音、语音和音乐下游任务,我们研究了该框架中的几个设计选择,并研究了它们的影响。我们特别关注输入数据的哪部分被用作上下文或目标,并通过实验证明这显著影响模型的质量。尤其是,我们注意到在图像领域的一些有效的设计选择会导致音频上的性能下降,从而凸显了这两种模态之间的重要差异。
May, 2024
通过研究使用联合嵌入预测架构 (JEPAs) 在脑电信号处理中实现无缝跨数据集迁移的挑战,本文提供了一项探索性研究。我们在一个包含 54 个受试者的数据集上进行了研究,并通过三个不同的脑 - 机接口范式 (运动想象、ERP 和 SSVEP) 评估了模型的下游性能。研究结果初步证明了 JEPAs 在脑电信号编码中的潜力,并强调了空间滤波在精确下游分类中的重要性,同时揭示了预训练示例长度对下游性能的影响但掩蔽大小不影响。
Mar, 2024
近期在点云领域中自监督学习方面的最新进展表现出显著的潜力。然而,这些方法常常面临一些问题,包括长时间的预训练时间、对输入空间的重构以及需要额外的模态。为了解决这些问题,我们介绍了一种专门针对点云数据设计的联合嵌入预测架构 ——Point-JEPA。为此,我们引入了一种排序器,它能够对点云标记进行排序,以在目标和上下文选择期间高效计算和利用标记的接近性。排序器还允许在上下文和目标选择之间共享标记的接近性计算,从而进一步提高效率。在实验证明,我们的方法在避免了对输入空间进行重构或使用额外模态的同时,取得了与最先进的方法相竞争的结果。
Apr, 2024
本文提出了一种基于掩模建模原则将视觉模型成功应用于音频的方法,通过在潜在空间中进行预测。我们引入了基于音频的联合嵌入预测架构(A-JEPA),这是一种简单的自监督学习方法,通过上下文编码器对可见音频频谱图块进行编码,并预测在精心设计的位置上采样的区域的表示。在多个音频和语音分类任务上,A-JEPA 在结构上采用了 Vision Transformers,我们发现它具有极强的可扩展性,并创造了新的最先进性能,超过了使用外部监督预训练的其他最新模型。
Nov, 2023
本文深入分析了自监督学习的机制以及其对表示学习的影响,揭示了自监督学习在样本聚类方面的潜在驱动作用,同时证实了该方法所训练的表示与语义类别之间存在着密切的对齐关系,并且这种对齐关系随着训练和网络深度的加深而不断增强,这对于提高自监督学习方法的性能和效果具有重要的理论和实际意义。
May, 2023
本文介绍了 T-JEPA,一种利用 Joint-Embedding Predictive Architecture(JEPA)进行自监督轨迹相似性计算的方法,通过在表示空间中对轨迹信息进行采样和预测,使模型能够推断轨迹的高级语义缺失部分,无需依赖领域知识或人工工作。在三个城市轨迹数据集和两个 Foursquare 数据集上进行了大量实验证明了 T-JEPA 在轨迹相似性计算上的有效性。
Jun, 2024