多策略取景器网络的图像裁剪伪标记
我们提出了一种多视角伪标记方法来进行视频学习,它利用外观和运动信息的互补视角进行半监督学习,以获取更可靠的伪标签并比纯监督数据学习更强的视频表示。我们的方法在多个视频识别数据集上大大优于其监督对应方法,并在自监督视频表示学习的标准基准测试中与先前的工作相比具有竞争优势,同时仍然训练一个共享外观和运动输入的模型,因此在推理时间不会产生额外的计算开销。
Apr, 2021
本文介绍了一种新颖的多视角深度学习方法 MVSS-Net 和其增强版 MVSS-Net++,通过同时利用图像临界位置和输入图像的噪声视图进行特征学习,可实现对图像的普适性篡改检测,并通过实验显示表现优秀,且在 JPEG 压缩、高斯模糊和截屏重拍等情况下更具鲁棒性。
Dec, 2021
本研究中提出了一种基于卷积神经网络的多视图立体(MVS)方法 BP-MVSNet,该方法使用一个可微条件随机场(CRF)层进行规范化,其能够在不同的尺度情况下得到高质量的深度地图。该方法经过 ablation study 和多组实验数据的测试,优于基线方法并实现了最新的技术水平。
Oct, 2020
利用通用化人工智能改进无标签目标场景的多视角 3D 行人检测,通过使用未经训练的检测器的自动标注方法,可以获得比直接使用未经训练检测器或使用现有标记的源数据集训练的检测器更好的结果。在使用 WILDTRACK 和 MultiviewX 作为目标数据集时,MODA 比现有的无标签方法分别提高了 4% 和 1%。
Aug, 2023
通过候选伪标签学习方法(CPL)在下游任务中使用适当的候选伪标签细调视觉 - 语言模型(VLMs),以提高 VLMs 在大量无标签数据上的 True 标签包含能力和类别平衡实例选择效果。
Jun, 2024
本文提出了一种称为 viewmaker networks 的生成模型,它可以从输入中生成有用的视图,并在预先训练时实现了与手工制作视图相当的结果,从而降低了预训练需要的领域专业知识和努力。
Oct, 2020
我们提出了一个快速且通用的解决多视图光度立体 (MVPS) 问题的方法,称为 MVPSNet。我们的方法通过一个特征提取网络有效地结合同一视图下不同光照条件下的图像,从阴影线索中提取几何特征用于立体匹配。我们通过介绍一种新的人工合成数据集 sMVPS 来训练我们的方法,并展示了在纹理缺失区域中提取特征的有效性。结果表明,我们的方法的重建结果与一个最先进的 MVPS 方法 PS-NeRF 相似,但推理速度快 411 倍(105 秒与 12 小时),具有一般化的可训练能力。
May, 2023
通过引入一种双重策略来增强教师模型的训练过程,从而显著改善少样本学习,同时提出一种校准校正机制,使学生模型能够纠正教师的校准错误。实验结果在 LVIS 数据集上表现出显著的提升,平均精度(AP)提高了 2.8%,稀有类别的 AP 提高了 10.3%。
Mar, 2024