Google 通用图像嵌入竞赛第二名解决方案
本文提出的方法在 Google Universal Images Embedding 竞赛中获得了第一名,并基于进行训练和微调的新方法,更好的集成模型池中的模型,高分辨率和重叠拼贴的微调之间潜在的权衡,以及适用于动态边际的潜在因素等多个方面进行了讨论。
Oct, 2022
基于 CLIP 架构,使用 SubCenter ArcFace loss ,dynamic margins 和提高 transfer learning 策略,以 Google Universal Image Embedding 竞赛为基础,创建了多样化的数据集,最终在 Kaggle 的排名中获得第六名,私有排行榜得分为 0.685。
Oct, 2022
该论文探讨了图像检索的基本问题,提出了一种基于数据清洗和度量学习模型的解决方案,并采用一种名为 Corner-Cutmix 的数据增强方法,提高了模型识别多尺度和被遮挡地标图像的能力。
Aug, 2020
该研究论文通过构建一个新的大规模公共基准数据集,评估了通用图像嵌入的性能,并通过实验证明,与单独训练每个领域的模型相比,现有方法和简单的扩展方法的性能较差。
Sep, 2023
本文介绍了我们参加 ECCV 2022 YouTube-VIS 长视频挑战赛的第二名的解决方案。我们采用了之前提出的在线视频实例分割方法 IDOL,并使用伪标签进一步帮助对比学习,以获取更多时间一致的实例嵌入,以提高帧之间的跟踪性能。所提出的方法在 YouTube-VIS 2022 长视频数据集上获得了 40.2 的 AP,并在该挑战赛中排名第二。我们希望我们的简单有效的方法能够有益于进一步的研究。
Nov, 2022
使用度量学习、迁移学习、微调、集成等方法,通过分类数码标志以提高模型性能,最终在 Google Landmark 检索比赛中获得第 1 名,并获得 0.38677 的 mAP@100 得分。
Aug, 2020
本文介绍了 Google Universal Image Embedding Challenge 竞赛中 4th place 的解决方案,重点讲述了用 CLIP 对零样本 Vision Transformers 进行微调的技巧,从而在多领域图像表示方面取得优秀的效果。
Oct, 2022
该论文介绍了 Google 地标检索 2021 年 Kaggle 比赛的第二名解决方案,该解决方案基于具有训练技巧的基线,提出了一种根据国家标签选择训练图像的大陆感知的采样策略,并为检索任务提出了地标 - 国家感知的重新排名方法。在私人排行榜上,我们实现了 0.52995 mAP@100。可在此 https URL 中找到代码。
Oct, 2021
提出了一种高效的端到端方法,用于标注和排序地标图像,采用卷积神经网络将图像嵌入到高维特征空间,并使用视觉相似性分类图像,采用相似性重新排名预测,过滤噪声。使用该方法在 2020 年的 Google 地标识别挑战赛中获得了第一名。
Oct, 2020
本文介绍了我们在 2020 年的 ECCV VIPriors 物体检测挑战中使用最先进的数据增广策略、模型设计和后处理集成方法,克服数据缺乏困难、仅使用 10K 训练图像,在没有任何预训练或迁移学习权重的情况下,获得了第二名,并在 COCO2017 验证集上实现了 36.6%的 AP。
Jul, 2020