- 探索生成人工智能在万维网的潜力
通过研究发现,生成人工智能已经可以利用网页上的上下文信息实现生成相关和高质量的网页图像,而无需手动输入提示,这一方法对于修复破损的网页或处理高度私密内容可能非常有价值。
- MM基于数据驱动的元集合细粒度视觉分类
通过学习元数据集并应用数据驱动的元集合方法,我们可以解决使用网络图像进行细粒度图像识别时带有标签噪声的问题,并且相比于现有噪声鲁棒性方法,我们的方法要优越得多。
- ECCV通过有选择的自监督自训练来改进物体检测
本文介绍了一种使用网络图像来扩充人为筛选的物体检测数据集的方法,通过图像匹配来检索网络图像,提出了一种新的学习方法,以获取正和负的边界框的监督信号,从而提高了检测结果。
- CVPR从单张图像中盲目去除视觉图案
该研究提出了一种基于深度学习的技术,用于消除互联网图片中带有叠加物或视觉图像的描述和装饰元素,实现了盲目消除不透明和半透明视觉图像的最新技术成果。
- ECCV基于网络知识迁移的零注释目标检测
本文介绍了一种基于互联网图像的目标检测方法,使用了多实例、多标签和迁移学习的框架,并通过实例级别的对抗性域适应网络和同时转移的机制转移知识,实现了在基准数据集上比基线方法显著提升的弱监督检测器。
- IJCAI通过深度描述符转换实现的无监督物体发现和共定位
本文聚焦于预训练深度卷积神经网络模型的可重复使用性,提出了一种称为 Deep Descriptor Transforming (DDT) 的方法,可以准确定位一组未标记图像中的共同对象,具有良好的泛化性和稳健性,并可用于收集 Web 图像作 - WebVision 挑战赛:基于网络数据的视觉学习与理解
2017 年 WebVision 挑战赛,旨在提供一组无需人工标记的互联网图像数据集和公开竞赛。数据集中包含超过 240 万张使用 ILSVRC 2012 语义概念生成的查询的互联网图像,用于在 WebVision 测试集上进行图像分类和在 - 群体参与:一种弱监督深度学习框架用于从 Web 数据中学习
本文介绍了一种鲁棒性强的、端到端的深度弱监督学习框架,该框架通过随机分组和注意力机制来有效减少 Web 图片注释的负面影响,实现了对嘈杂标签的有效抑制和准确图像标注,实验证明了该方法的卓越性能。
- 从互联网上的面部表情识别
本研究使用深度神经网络和噪声建模技术,在野外环境中准确识别面部表情,并实现基于网络图片的面部表情识别准确率达 82.12%。
- VRFP:利用网络图像和快速 Fisher 向量产品进行即时视频检索
该研究提出了一种基于 Fisher Vector 的 VRFP 实时视频检索框架,利用基于 CNN 特征的单个 Fisher Vector 处理代表查询和每个数据库视频的检索 web 图像,可通过算法加速内积计算进行实时匹配,与标准表示法相 - 大规模人脸搜索:8000 万图库
本文提出了一个脸部搜索系统,它使用快速搜索程序和 COTS 匹配器相结合的级联框架,通过卷积神经网络生成的深度特征来过滤大量的照片,并在 80 百万张网络下载的人脸图像的图库上对该系统进行了评估。