预文本对比学习:自监督视频表示学习的良好实践
本研究对自监督学习中采用对比学习方法的常见预训练任务及各种方法进行了广泛的回顾,并通过图像分类,目标检测和动作识别等多个下游任务的性能比较,探讨了当前方法的限制以及未来发展方向。
Oct, 2020
本文研究自我监督对比学习中的两个关键因素:批大小和预设任务,并提出了一种自适应的批融合技术,通过降维和重构批数据,使以前孤立的个体数据能够通过嵌入层在批内进行通信,随着训练进行,自适应地增强自我监督特征编码能力。通过在 ImageNet-1k 上进行线性分类测试,实证结果表明我们的方法在公平比较下实现了最先进的性能。在 ImageNet-100 上,相对于原始性能,top1 最多提高了 1.25%。我们认为该方法可能有助于数据驱动的自我监督学习研究的进展,并为该领域带来新的视角。
Nov, 2023
该论文提出了一个从多个视角捕捉的无标注视频演示中学习视觉表示的框架,优化了最近提出的自监督学习算法,应用对比学习来增强与任务相关的信息和抑制特征嵌入中的无关信息,验证了所提出的方法在模拟几种机器人任务,包括 pick and place 任务中的应用,评估了学习表示的三个指标:视点对齐,阶段分类和强化学习,在所有情况下,结果都表明与现有方法相比,该方法水平更高,而且训练轮数更少。
Jan, 2022
本文提出了一种新的预训练任务方案,即基于空时重叠率 (STOR) 预测,旨在通过判断生成样本之间的 STOR 来学习视频自监督表示学习,并结合对比学习和预训练任务进行联合优化,从而进一步提高视频理解的空时表示学习。
Dec, 2021
本文中,我们提出了一些基线模型,将对比学习与最近的自监督学习进展相结合,用于生成多模态表示。除了使用对比性损失,我们还使用了已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。而使用更有效的数据增广技术可以提高模型性能,使我们在四个标准数据集上获得了最先进的性能。
May, 2023
该研究提出了一种基于段落的视频级对比学习方法,它使用全局上下文形成正样本,同时还结合了一个时间顺序正则化项来确保视频的时序结构,实验证明该方法在动作分类、动作定位和视频检索等任务上能够超越现有的最先进方法。
Aug, 2021
本文提出了一种基于上下文感知的时空对比学习(ConST-CL)的方法,该方法成功地实现了学习细粒度视频表示,利用区域预文本任务引导模型从一个视角到另一个视角转换,并整合整体和局部表示的并行学习过程。我们在多个数据集上评估了所学得的表示,并展示了 ConST-CL 在 6 个数据集上取得了具有竞争力的结果,包括 Kinetics,UCF,HMDB,AVA-Kinetics,AVA 和 OTB。
Dec, 2021
本文提出一种新的自监督学习框架,可以解决在设计和比较不同任务、模型和数据域时的限制问题,通过这个框架设计一种新的自监督任务,在 PASCAL VOC 2007、ILSVRC12 和 Places 数据集上,取得了显著的最先进表现,并将自监督学习和监督学习之间的对象检测 mAP 误差从 5.9% 缩小到 2.6%。
May, 2018
本文提出了一种新的对比学习框架,将其无缝地整合到预训练阶段和元训练阶段,以提高少样本分类的性能,并使用交叉视图的情节训练机制进行最近的质心分类,并采用基于距离缩放的对比损失。
Sep, 2022