- 基于图像的缺陷检测的全卷积跨尺度流
本研究提出了一种新的全卷积跨尺度归一化流模型(CS-Flow),该模型通过对不同尺度的多个特征图进行联合处理,能够对工业制造中的缺陷进行自动检测和定位,同时在基准数据集上取得了 100%的区分度(AUROC)。
- ImageBART: 双向上下文与多项式扩散的自回归图像合成
本文研究了基于自回归模型与多项式扩散过程结合的粗粒度到细粒度的图像语境建模方法,该方法应用于图像修改技术,较单一自回归模型在高保真度生成和图像修改能力方面有着显著提高。同时,该模型可以在压缩的潜在空间下进行高效训练,能够对于无限制的用户提供 - ICLRVICReg: 自监督学习的方差不变协方差正则化
本文介绍了一种简单、易于解释的方法 VICReg,结合了方差约束、冗余降维和协方差正则化等策略,可以解决自我监督学习中模型输出恒定向量的问题,并能在图像表征学习等多个下游任务中达到与现有方法相当的性能水平。
- 重新思考 BiSeNet 实时语义分割
提出了一种高效的 STDC 网络和 Detail Aggregation 模块,用于实时图像分割,通过在低级别层中学习空间信息,并将低级和深层特征融合以预测最终的分割结果,取得了较高的分割准确率和快速推理速度。
- AAAI非任务相关知识构建的可传递广义零样本学习表示
该文提出了一种新的双对比嵌入网络(DCEN),通过语义对齐和实例区分同时学习特定任务和任务无关知识,其中实例区分监督可帮助捕捉视觉低级知识,减轻表示偏差,从而获得可传输的表示。
- CVPR使用局部隐式图像函数学习连续的图像表示
本文提出了一种名为 LIIF 的局部隐式图像函数,通过输入图像坐标和周围的 2D 深度特征,预测给定坐标的 RGB 值,训练得到的连续表示可以呈现在任意分辨率下,甚至可以外推到高达 x30 的分辨率,同时 LIIF 还在 2D 中构建了离散 - 对比损失的有趣特性
本论文详细分析了对比学习的三个问题:扩展标准对比损失、局部特征学习和竞争特征抑制现象,并指出了此类方法可能存在的数据增强限制和学习饱和等问题。
- 即使没有批量统计数据,BYOL 仍然有效
本研究提出 Bootstrap Your Own Latent (BYOL) 作为一种自监督学习方法,用于图像表示学习,并探讨与批归一化 (batch normalization) 的关系。实验结果表明,使用批独立归一化可以取得与传统 BY - 条件负采样用于视觉表征对比学习
本文中介绍了一种新的图像对比学习方法,该方法采用有条件的负采样策略来优化互信息估计,与传统的噪声对比估计相比,该方法在多个标准数据集上都获得了 2-5% 的准确度提升,并且在物体检测、实例分割、关键点检测等下游任务中也获得了更好的性能表现。
- 半监督腺体分割的配对关系学习
在组织学图像计算辅助诊断中,准确自动地分割腺体是重要且具有挑战性的任务。本文提出了一种基于成对关系的半监督模型,用于组织学图像中的腺体分割。该模型利用标记数据训练分割网络和成对关系网络,并通过成对图像中的语义一致性增强其图像表示能力。模型中 - AAAISeCo: 探索序列监督以实现无监督表示学习
本文探索了三个不同侧重的监督学习方式,并借此提出了一种名为 SeCo 的序列对比学习方法,可以优化行动识别、物体追踪等任务的结果。
- 保持语义领域对稳健跨模态检索的影响
本篇研究提出了一种方法,使用特定的 loss 函数,在保持图像和文本子空间内的语义连贯性的同时鼓励它们之间的语义协同,并改进了基线模型,以实现跨模态检索。
- ACL更好地利用图片描述提升图像字幕质量
本文提出了一种新的图像字幕架构,通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成,实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验,证明该框架在多种评估指标下取得了业内最优表 - 自举型潜变量:自监督学习的一种新方法
本文提出了一种新的自监督图像表示学习方法 Bootstrap Your Own Latent(BYOL),通过在线网络和目标网络相互交互和学习,从图像的增强视图中训练在线网络以预测在不同增强视图下相同图像的目标网络表示,并同时使用在线网络的 - 基于大规模生成模型的无标签物体分割
本文介绍了无监督学习在目标分割上的应用,实验表明运用最近的无监督生成式对抗网络可以实现较高质量的前景 / 背景像素分割且优于其它无监督方法。
- ECCVDiVA:用于深度度量学习的多样化视觉特征聚合
通过多个互补的学习任务,同时优化训练信号以学习一种单一模型,以实现更强的泛化能力和在多个已建立的深度度量学习基准数据集上的最新性能。
- ICLR通过可逆生成流解耦全局与局部表示
本研究提出了一种新的生成模型,它能够在完全无监督的环境中自动解耦图像的全局和局部表示,并借鉴样式转换文献中的结构来嵌入生成流以对解码器进行建模。实验结果表明我们的模型在密度估计、图像生成和无监督表示学习方面都非常有效。
- CVPR通过预测视觉单词包学习表征
本文提出了一种基于视觉词汇的自监督学习方法,通过将图像特征映射量化为视觉词汇,实现了对图像的分离表示,通过 Bag-of-Words 表示学习有用的下游图像理解特征,与类似自然语言领域的方法相比,该方法在目标检测和分类上表现出更好的迁移能力 - CVPR更普适的人脸造假检测:面部 X 光线照片
本文提出使用新的图像表示法 —— 面部 X 光来检测面部图像中的伪造,该表示法通过展示伪造图像的混合边界和真实图像的不混合来实现,其可以有效地检测大多数现有的面部操作算法生成的伪造。
- 用于组合表示学习的多模态生成模型
该文介绍了一种基于多模态数据边缘似然的分层变分自编码器的族群。文章使用 VAEGAN 及基于流的模型构建了模型。实验结果表明,对于图像、标签和文本数据,这些模型在很多领域中达到了最优结果,并且使用 GAN 图像模型和 VAE 语言模型可以得