通往全能图像嵌入:一个针对通用图像表示的大规模数据集与挑战
本文介绍了第二名在 Google 通用图像嵌入竞赛中的解决方案,主要探讨了数据建立,模型结构和训练策略对细粒度图像分类的影响,并在公共排行榜得分为 0.713,在私人排行榜得分为 0.709。
Oct, 2022
本研究旨在使用文本和视觉信息进行有效的单词嵌入训练和评估。研究人员提出了一个大规模数据集,其中包含 300 万语句,描述了来自 Pinterest 的超过 4000 万张图像。该研究还报道了一种基于 RNN 的多模态模型,通过在嵌入中整合视觉信息,该模型可以找到语义相似或相关的单词和短语。经验表明,共享策略对于学习这种多模态嵌入至关重要。
Nov, 2016
本文提出了一种通用表征学习框架来提高人脸识别的性能,包括合成训练数据、分割特征嵌入、用不同自信值调整训练的过程,以及通过正则化分类和对不同划分的变体进行对抗训练损失来减少相关性。实验结果表明,该方法在 LFW 和 Megaface 等人脸识别数据集上取得了最佳性能,而在 Tinyface 和 IJB-S 等极端数据集上表现显著优于其他方法。
Feb, 2020
基于 CLIP 架构,使用 SubCenter ArcFace loss ,dynamic margins 和提高 transfer learning 策略,以 Google Universal Image Embedding 竞赛为基础,创建了多样化的数据集,最终在 Kaggle 的排名中获得第六名,私有排行榜得分为 0.685。
Oct, 2022
该研究提出了一种基于无监督学习和深度神经网络的终端到终端学习框架,结合自编码器和最大均值差异损失来学习语义和视觉特征的联合嵌入,实现了跨域多模态表示的提取,并构建了更全面的标记和未标记数据的嵌入,帮助从归纳到传导的范围内解决零样本和少样本图像识别和检索等各种复杂任务。
Mar, 2017
该论文描述了 Pinterest 如何使用多任务深度度量学习系统来学习单个统一的图像嵌入,以帮助用户浏览相关内容和搜索精确产品,还讨论了处理来自不同领域的图像的挑战,并通过离线指标、用户研究和在线 A/B 实验的全面评估证明,他们提出的统一嵌入法改进了 Pinterest 的可视化搜索产品的相关性和互动性。
Aug, 2019
本文提出的方法在 Google Universal Images Embedding 竞赛中获得了第一名,并基于进行训练和微调的新方法,更好的集成模型池中的模型,高分辨率和重叠拼贴的微调之间潜在的权衡,以及适用于动态边际的潜在因素等多个方面进行了讨论。
Oct, 2022
该研究提出了一个新的大规模无监督语义分割的问题(LUSS),并创建了一个基准数据集来帮助研究。该基准数据集名为 ImageNet-S,包含 120 万个训练图像和 50K 高质量的语义分割注释进行评估。此外,研究人员还提出了一种简单而有效的方法,可用于大规模无监督语义分割,并且公布了代码和基准数据集。
Jun, 2021
本论文提出了基于领域自适应的方法,将无监督训练样本中的领域信息作为辅助信息,采用学习的鉴别性领域嵌入构建领域自适应模型,用于即使在未见过领域上的预测任务。该方法在各种领域泛化基准上均实现了最先进的性能,并引入了首个现实世界的大规模领域泛化基准 Geo-YFCC,相对于现有的方法,该基于领域自适应的方法在该数据集上实现了显着的优化。
Mar, 2021
本文介绍了通过适配器和居中核对齐等方法,利用多个分别训练的网络的知识来同时学习多个领域上通用的深度表示,通过距离学习方法来有效适应之前未见过的领域,并在 Meta-Dataset 基准测试中取得显著的性能提升。
Mar, 2021