本文研究应用自监督学习和多任务学习方法预训练音乐编码器,探索编码器结构、损失权重和自监督任务选择对下游音乐分类任务的影响。研究发现,使用多种音乐特定的自监督任务,结合合理的损失权重平衡,可以提高和推广到下游任务。
Feb, 2021
本研究对自监督学习中采用对比学习方法的常见预训练任务及各种方法进行了广泛的回顾,并通过图像分类,目标检测和动作识别等多个下游任务的性能比较,探讨了当前方法的限制以及未来发展方向。
Oct, 2020
视觉变换器结合自监督学习,在分类、分割和检测等多个下游任务上能够扩展到大规模数据集。我们通过比较预训练模型,在不同自监督预训练任务(对比学习、聚类和掩模图片建模)的低样本学习能力以及应对崩溃的方法(居中、ME-MAX 和 Sinkhorn)对这些下游任务的影响进行系统级研究。基于我们的详细分析,我们提出了一个框架,将掩模图片建模和聚类作为预训练任务,这个框架在包括多类分类、多标签分类和语义分割在内的所有低样本下游任务中表现更好。此外,当在完整规模的数据集上测试模型时,我们在多类分类、多标签分类和语义分割中展示了性能提升。
Jun, 2024
本文提出了用于视频领域的自监督学习基准,并对数据集大小、数据分布、数据噪声、自监督预训练架构相关的五个不同方面进行了观察分析,同时提出一种新方法,不需要过多的训练数据,即可超越现有自监督预训练的先进水平。
Jun, 2023
本文提出一种新的自监督学习框架,可以解决在设计和比较不同任务、模型和数据域时的限制问题,通过这个框架设计一种新的自监督任务,在 PASCAL VOC 2007、ILSVRC12 和 Places 数据集上,取得了显著的最先进表现,并将自监督学习和监督学习之间的对象检测 mAP 误差从 5.9% 缩小到 2.6%。
May, 2018
本研究表明,在计算机视觉中,使用自监督学习获得的特征,在域泛化方面与或优于使用监督学习获得的特征,并引入了一个新的自监督预文本任务来预测对 Gabor 滤波器组的响应,使用多任务学习提高了域泛化性能。
Mar, 2020
本文研究了不同对比自监督学习方案学习的音乐音频表示,并在不同的音乐信息检索任务中经验性地评估嵌入向量,以分析结果并讨论对不同 MIR 任务的适当对比学习策略方向,表明这些表示传达了关于音乐的听觉特征的综合信息,尽管每个自我监督策略在某些方面的信息方面有效。
Jul, 2022
本文提出了一种联合优化框架 Pretext-Contrastive Learning (PCL) 可以显著提高预训练任务和对比学习的表现,在自监督视频特征学习任务中可以超过当前的 SOTA 方法。
我们通过自监督对比学习的方法,研究了如何减轻多模态音乐检索模型中标注数据稀缺的限制,并提出了经过预训练的模型能够更好地检索音乐片段,并在交叉模态的作品识别任务中获得更好的检索质量的观察结果。
Sep, 2023
自我监督学习方法可以通过使用多个预处理任务和混合专家架构作为门控网络,来改进图像分类,使模型能够自动学习和更关注对分类最有用的增强方法。在几个场景下进行测试,并使用 Grad-CAM 和 T-SNE 分析来识别影响图像分类的重要特征并适当地区分不同的类别。
Jul, 2023