JEP-KD：基于联合嵌入预测架构的知识蒸馏用于视觉语音识别

Mar, 2024

JEP-KD：基于联合嵌入预测架构的知识蒸馏用于视觉语音识别

JEP-KD: Joint-Embedding Predictive Architecture Based Knowledge Distillation for Visual Speech Recognition

Chang Sun, Hong Yang, Bo Qin

TL;DR此研究介绍了一种先进的知识蒸馏方法，使用联合嵌入预测架构（JEPA），命名为 JEP-KD，旨在更有效地利用音频特征进行模型训练，以缓解视觉语音识别（VSR）任务的挑战，并展示了其在不同 VSR 平台上显著改善模型性能的潜力。

Abstract

visual speech recognition (VSR) tasks are generally recognized to have a lower theoretical performance ceiling than automatic speech recognition (ASR), owing to the inherent limitations of conveying semantic info

visual speech recognition automatic speech recognition knowledge distillation joint-embedding predictive architecture multimodal training

发现论文，激发创造

探索联合嵌入预测架构在一般音频表示学习中的设计选择

本文研究自监督通用音频表示学习的问题，探讨了在此任务中使用联合嵌入预测架构（JEPA），通过将输入的 mel 频谱图分割为上下文和目标两部分，计算每个部分的神经表示，并训练神经网络从上下文表示中预测目标表示。通过对各种音频分类基准进行广泛实验评估，包括环境声音、语音和音乐下游任务，我们研究了该框架中的几个设计选择，并研究了它们的影响。我们特别关注输入数据的哪部分被用作上下文或目标，并通过实验证明这显著影响模型的质量。尤其是，我们注意到在图像领域的一些有效的设计选择会导致音频上的性能下降，从而凸显了这两种模态之间的重要差异。

May, 2024

A-JEPA：联合嵌入预测架构能够聆听

本文提出了一种基于掩模建模原则将视觉模型成功应用于音频的方法，通过在潜在空间中进行预测。我们引入了基于音频的联合嵌入预测架构（A-JEPA），这是一种简单的自监督学习方法，通过上下文编码器对可见音频频谱图块进行编码，并预测在精心设计的位置上采样的区域的表示。在多个音频和语音分类任务上，A-JEPA 在结构上采用了 Vision Transformers，我们发现它具有极强的可扩展性，并创造了新的最先进性能，超过了使用外部监督预训练的其他最新模型。

Nov, 2023

联合嵌入预测架构的图像自监督学习

该研究论文使用了无需手工制作的数据增强方法来学习高度语义化的图像表示，引入了 I-JEPA 框架，通过从单个上下文块中预测同一图像中的各种目标块的表示来实现自我监督学习。实验结果表明，与 Vision Transformers 相结合，I-JEPA 具有高度的可扩展性和强大的下游性能。

Jan, 2023

DMT-JEPA：用于联合嵌入预测结构的判别性掩码目标

我们介绍了一种新的基于 JEPA 的 masked modeling 目标 DMT-JEPA，通过计算特征相似性和使用轻量级交叉注意力头，将语义相似的邻域图像作为目标来生成具有辨别力的潜在目标，从而弥补了 JEPA 在理解局部语义方面的不足。

May, 2024

S-JEPA：基于动态空间注意力的无缝跨数据集迁移

通过研究使用联合嵌入预测架构 (JEPAs) 在脑电信号处理中实现无缝跨数据集迁移的挑战，本文提供了一项探索性研究。我们在一个包含 54 个受试者的数据集上进行了研究，并通过三个不同的脑 - 机接口范式 (运动想象、ERP 和 SSVEP) 评估了模型的下游性能。研究结果初步证明了 JEPAs 在脑电信号编码中的潜力，并强调了空间滤波在精确下游分类中的重要性，同时揭示了预训练示例长度对下游性能的影响但掩蔽大小不影响。

Mar, 2024

联合嵌入预测架构的图级表示学习

Graph-JEPA 是首个针对图领域提出的 Joint-Embedding Predictive Architectures (JEPAs) 模型，通过掩码建模学习不同子图的嵌入表示，并且采用预测编码子图在二维平面上单位双曲线上坐标的替代训练目标，验证结果表明 Graph-JEPA 能够学习具有表达力并在图分类和回归问题中具有竞争力的表示。

Sep, 2023

多解码器与知识蒸馏的流式与非流式自动语音识别的联合优化

本文通过使用多解码器和知识蒸馏来实现流式和非流式自动语音识别（ASR）的联合优化，主要研究了 ASR 模块的编码器整合、分离解码器以实现灵活切换模式，以及通过两个模块化编码器和解码器之间的相似性保持知识蒸馏来提高性能。评估结果显示，在单一模型中与多个独立模块相比，流式 ASR 的字符错误率相对减少了 2.6%-5.3%，非流式 ASR 的字符错误率相对减少了 8.3%-9.7%。

May, 2024

基于容量受限网络的时序预测远程控制

在远程控制系统中，当上行通道容量受限时（例如 RedCap 设备或大规模无线传感器网络），从无线传感器向远程控制器传输大数据量（如视频流）是具有挑战性的。为了解决这个问题，本研究提出了一种基于时间序列联合嵌入预测架构（TS-JEPA）和通过自监督学习训练的语义参与者的方法。该方法利用 TS-JEPA 的语义表示能力和预测能力，捕捉源数据中的时空相关性，从而优化上行通道利用率，而语义参与者直接从编码表示中计算控制命令，而非从原始数据中计算。通过对知名倒立摆场景的多个并行实例进行测试，验证了该方法在受限上行通道容量下最大化稳定性的有效性。

Jun, 2024

AKVSR: 基于压缩预训练模型的音频知识增强的视觉语音识别

提出了一种基于音频知识的视觉语音识别框架（AKVSR），通过使用音频模态来补充视觉模态中不足的语音信息，利用预训练的大规模音频模型编码丰富的音频知识，并通过量化舍弃非语言信息从而将语言信息保存在紧凑的音频存储器中，并包括能够从紧凑的音频存储器中找到最佳匹配音频特征的音频桥接模块，使得训练过程不需要音频输入，通过广泛的实验验证了该方法的有效性，并在广泛使用的数据集 LRS2 和 LRS3 上取得了最新的最佳表现。

Aug, 2023

Point-JEPA：面向点云自监督学习的联合嵌入预测架构

近期在点云领域中自监督学习方面的最新进展表现出显著的潜力。然而，这些方法常常面临一些问题，包括长时间的预训练时间、对输入空间的重构以及需要额外的模态。为了解决这些问题，我们介绍了一种专门针对点云数据设计的联合嵌入预测架构 ——Point-JEPA。为此，我们引入了一种排序器，它能够对点云标记进行排序，以在目标和上下文选择期间高效计算和利用标记的接近性。排序器还允许在上下文和目标选择之间共享标记的接近性计算，从而进一步提高效率。在实验证明，我们的方法在避免了对输入空间进行重构或使用额外模态的同时，取得了与最先进的方法相竞争的结果。

Apr, 2024