A-JEPA：联合嵌入预测架构能够聆听

Nov, 2023

A-JEPA：联合嵌入预测架构能够聆听

A-JEPA: Joint-Embedding Predictive Architecture Can Listen

Zhengcong Fei, Mingyuan Fan, Junshi Huang

TL;DR本文提出了一种基于掩模建模原则将视觉模型成功应用于音频的方法，通过在潜在空间中进行预测。我们引入了基于音频的联合嵌入预测架构（A-JEPA），这是一种简单的自监督学习方法，通过上下文编码器对可见音频频谱图块进行编码，并预测在精心设计的位置上采样的区域的表示。在多个音频和语音分类任务上，A-JEPA 在结构上采用了 Vision Transformers，我们发现它具有极强的可扩展性，并创造了新的最先进性能，超过了使用外部监督预训练的其他最新模型。

Abstract

This paper presents that the masked-modeling principle driving the success of large foundational vision models can be effectively applied to audio by making predictions in a latent space. We introduce Audio-based Joint-Embedding Predictive Architecture (A-JEPA), a simple extension meth

masked-modeling audio-based joint-embedding predictive architecture self-supervised learning audio spectrogram vision transformers

发现论文，激发创造

探索联合嵌入预测架构在一般音频表示学习中的设计选择

本文研究自监督通用音频表示学习的问题，探讨了在此任务中使用联合嵌入预测架构（JEPA），通过将输入的 mel 频谱图分割为上下文和目标两部分，计算每个部分的神经表示，并训练神经网络从上下文表示中预测目标表示。通过对各种音频分类基准进行广泛实验评估，包括环境声音、语音和音乐下游任务，我们研究了该框架中的几个设计选择，并研究了它们的影响。我们特别关注输入数据的哪部分被用作上下文或目标，并通过实验证明这显著影响模型的质量。尤其是，我们注意到在图像领域的一些有效的设计选择会导致音频上的性能下降，从而凸显了这两种模态之间的重要差异。

May, 2024

联合嵌入预测架构的图像自监督学习

该研究论文使用了无需手工制作的数据增强方法来学习高度语义化的图像表示，引入了 I-JEPA 框架，通过从单个上下文块中预测同一图像中的各种目标块的表示来实现自我监督学习。实验结果表明，与 Vision Transformers 相结合，I-JEPA 具有高度的可扩展性和强大的下游性能。

Jan, 2023

S-JEPA：基于动态空间注意力的无缝跨数据集迁移

通过研究使用联合嵌入预测架构 (JEPAs) 在脑电信号处理中实现无缝跨数据集迁移的挑战，本文提供了一项探索性研究。我们在一个包含 54 个受试者的数据集上进行了研究，并通过三个不同的脑 - 机接口范式 (运动想象、ERP 和 SSVEP) 评估了模型的下游性能。研究结果初步证明了 JEPAs 在脑电信号编码中的潜力，并强调了空间滤波在精确下游分类中的重要性，同时揭示了预训练示例长度对下游性能的影响但掩蔽大小不影响。

Mar, 2024

联合嵌入预测架构的图级表示学习

Graph-JEPA 是首个针对图领域提出的 Joint-Embedding Predictive Architectures (JEPAs) 模型，通过掩码建模学习不同子图的嵌入表示，并且采用预测编码子图在二维平面上单位双曲线上坐标的替代训练目标，验证结果表明 Graph-JEPA 能够学习具有表达力并在图分类和回归问题中具有竞争力的表示。

Sep, 2023

DMT-JEPA：用于联合嵌入预测结构的判别性掩码目标

我们介绍了一种新的基于 JEPA 的 masked modeling 目标 DMT-JEPA，通过计算特征相似性和使用轻量级交叉注意力头，将语义相似的邻域图像作为目标来生成具有辨别力的潜在目标，从而弥补了 JEPA 在理解局部语义方面的不足。

May, 2024

T-JEPA：轨迹相似度计算的联合嵌入预测架构

本文介绍了 T-JEPA，一种利用 Joint-Embedding Predictive Architecture（JEPA）进行自监督轨迹相似性计算的方法，通过在表示空间中对轨迹信息进行采样和预测，使模型能够推断轨迹的高级语义缺失部分，无需依赖领域知识或人工工作。在三个城市轨迹数据集和两个 Foursquare 数据集上进行了大量实验证明了 T-JEPA 在轨迹相似性计算上的有效性。

Jun, 2024

Point-JEPA：面向点云自监督学习的联合嵌入预测架构

近期在点云领域中自监督学习方面的最新进展表现出显著的潜力。然而，这些方法常常面临一些问题，包括长时间的预训练时间、对输入空间的重构以及需要额外的模态。为了解决这些问题，我们介绍了一种专门针对点云数据设计的联合嵌入预测架构 ——Point-JEPA。为此，我们引入了一种排序器，它能够对点云标记进行排序，以在目标和上下文选择期间高效计算和利用标记的接近性。排序器还允许在上下文和目标选择之间共享标记的接近性计算，从而进一步提高效率。在实验证明，我们的方法在避免了对输入空间进行重构或使用额外模态的同时，取得了与最先进的方法相竞争的结果。

Apr, 2024

JEP-KD：基于联合嵌入预测架构的知识蒸馏用于视觉语音识别

此研究介绍了一种先进的知识蒸馏方法，使用联合嵌入预测架构（JEPA），命名为 JEP-KD，旨在更有效地利用音频特征进行模型训练，以缓解视觉语音识别（VSR）任务的挑战，并展示了其在不同 VSR 平台上显著改善模型性能的潜力。

Mar, 2024

听觉遮盖自编码器

本文研究了基于图像的 Masked Autoencoder（MAE）的简单扩展，用于从音频频谱图进行自监督表示学习，并提出了 Audio-MAE 模型，该模型利用 Transformer 编码器 - 解码器设计，使用高掩蔽率编码音频频谱图，通过仅馈送非遮蔽记号通过编码器层，解码器则重新组织和解码编码器产生的上下文，以重构输入谱图。在六个音频和语音分类任务中，Audio-MAE 都表现出最先进的性能，超过了使用外部监督预训练的其他最新模型.

Jul, 2022

学习和利用世界模型在视觉表示学习中

通过预测缺失部分的输入，我们提出了 Image World Models 这一方法，它不仅限于掩蔽图像建模，而且能够学习预测潜在空间中全局光度变换的效果。同时，我们展示了通过微调适应 IWM 的预测世界模型，以解决多样化任务的能力，并说明了学习使用 IWM 的好处，可以控制学习表示的抽象层级，学习不变表示（如对比方法）或等变表示（如掩蔽图像建模）的性质。

Mar, 2024