UnweaveNet: 解构活动故事
通过使用医学图像的大规模无标签数据集和自监督学习技术中的 Masked 自编码器,我们提出了一种用于医学图像任务的预训练模型,其在四个不同的医学图像任务中表现优于现有的预训练模型。
Jul, 2024
自我监督学习在各种任务中成为获取视觉表示的重要方法,然而在细粒度视觉识别中的应用受到区分细微差异的复杂任务的挑战。为了克服这一挑战,我们引入了一种新策略,通过生成的数据对引导模型专注于细粒度视觉识别所关键的区分性特征,从而增强自我监督学习提取关键区分性特征的能力。我们通过两个主要标准来识别非区分性特征:方差较低且无法有效分离数据的特征以及从自我监督学习损失引发的 Grad-CAM 认为不太重要的特征。然后,我们在保留区分性特征的同时对这些非区分性特征引入扰动。利用解码器从扰动和原始特征向量中重构图像来生成数据对,并通过对生成的数据对进行训练,使编码器在非区分性维度上具有不变性,并专注于区分特征,从而提升模型在细粒度视觉识别任务中的性能。通过对各种数据集进行广泛评估,我们展示了所提出方法在细粒度视觉识别方面有希望的性能。
Jul, 2024
本文研究了一种线性复杂度的自监督学习(SSL)上下文编码器,通过改进 SummaryMixing 模型,在 MP3S 基准测试的下游任务中达到更好或相等的性能,将 wav2vec 2.0 模型的预训练时间和峰值 VRAM 分别减少了 18% 和 23%,使得 155M wav2vec 2.0 模型的预训练在一周内由 4 个 Tesla A100 GPU 完成。
Jul, 2024
自监督学习与监督学习之间存在显著差距,本文分析了自监督学习方法中特征学习存在的拥挤问题,并提出了动态语义调整器 (Dynamic Semantic Adjuster) 作为解决方案,通过在特征空间中对样本进行聚合和分离,最终缩小了自监督学习与监督学习之间的性能差距。
Jul, 2024
实时面部动画是虚拟现实中头像介导的遥感交流的核心;本文提出一种在头戴式虚拟现实设备上实时生成真实面部动画的方法,包括无监督学习、跨视角重建、表情校准机制和改进的参数化方法,通过与之前的面部编码方法对比,实验证明本方法在数量和质量上都取得了显著的改进。
Jul, 2024
该论文介绍了一种神经网络架构,利用多种多样性原则,在 MNIST 上实现了 99.57% 的自我监督学习准确率,并且在 CIFAR-10 上实现了 94.21% 的半监督学习准确率(每类仅使用 25 个标签)。
Jul, 2024
自我监督学习方法是一种机器学习方法,通过解决预设任务,通过数据本身提供监督,从而避免了对外部标签的需求,并能够有效利用大量廉价无标签数据进行模型训练,从而显著降低了昂贵或无法获取标签的模型训练成本。本研究主要针对自我监督学习方法中的评估协议进行研究,评估表征质量,并预测不同类型数据集上不同下游任务的性能表现,发现基于领域内的线性 /kNN 探测协议是最好的普适性预测器,进一步研究了批归一化的重要性以及对不同类型数据集领域转移的鲁棒性的评估,同时对区分性和生成性自我监督方法之间的关系进行了挑战,并发现它们之间的性能差异大部分可以通过模型的改变来解释。
Jul, 2024
知识蒸馏是从大型训练模型向更小、更高效的学生模型转移知识的有效方法,我们引入了关系表示蒸馏(RRD),该方法利用配对相似性来探索和强化教师模型和学生模型之间的关系,通过放宽的对比损失方法,改善了学生模型的鲁棒性和性能,且在 CIFAR-100 数据集上表现优于传统的知识蒸馏技术和其他 13 种先进方法,在其他数据集上也成功地进行了知识转移。
Jul, 2024
本研究提出了将预训练的自监督模型(音频掩码自动编码器,A-MAE)整合到通用音频分离系统中以提高分离性能的方法,并在 AudioSet 数据集上进行了实验,结果表明本方法成功提高了最新的 ResUNet-based USS 模型的分离性能。
Jul, 2024