藏匿游戏:强制使网络细致地进行弱监督物体和动作定位
Hide-and-Seek 是一种通用的数据增强技术,它可以在各种视觉识别任务中提高网络性能,尤其在弱监督定位方面具有优势。其核心思想是将训练图像中的一些信息随机隐藏,从而迫使网络寻找其他相关内容,而这项技术不仅仅适用于图像定位,也可用于视频分类、语义分割、情感识别、年龄 / 性别估计和人物再识别等任务。
Nov, 2018
本论文提出了一种新方法,通过图像级标签,结合判别子模块覆盖问题和平滑的潜在 SVM 公式,实现仅需很少的监督,即可学习定位对象。实验表明,该方法在 PASCAL VOC 2007 检测中,相对于现有技术有 50%的平均精确度提升。
Mar, 2014
该研究提出了一种潜在方法,利用注意力模型进行弱监督学习,其可以检测出影片中的动作,而无需特定类别的标签, 并利用弱监督学习进行比较准确的学习和定位,成功地应用于 Instagram 中的不加筛选的视频之间。
Aug, 2019
介绍了一种新方法,利用深度卷积神经网络对整张图片进行训练,以在不额外进行人工监督的情况下定位图像中的物体,并将该思想嵌入凝聚聚类技术中,产生自学习定位假设。实验证明,使用我们的方法自动生成的注释可用于训练物体探测器,产生接近于手动注释的边界框的识别结果。
Sep, 2014
本文提出了一种基于注意力机制的分层结构潜在模型,用于学习特征语义的时间变化,通过两个组件进行实现:第一个是无监督的变点检测模块,通过在时间层次中学习视频特征的变化率来检测变点;第二个是基于注意力的分类模型,将前景的变点作为边界来选择。通过在两个基准数据集 THUMOS-14 和 ActivityNet-v1.3 上进行广泛实验,结果表明我们的方法优于当前最先进的方法,并且甚至与全监督方法具有可比较的性能。
Aug, 2023
我们的研究工作在弱监督目标检测方面尝试利用不仅仅是物体类别标签,还使用数据中关联的动作标签;我们发现图像 / 视频中描绘的动作可以为相关物体的位置提供强烈的线索,并利用动作学习了一个与物体相关的空间先验,并将其融入到联合目标检测和动作分类模型中进行同时训练。我们在视频数据集和图像数据集上进行了实验来评估我们的弱监督目标检测模型的性能,结果表明,在 Charades 视频数据集上,我们的方法在 mAP 上比当前最先进的方法提高了 6% 以上。
Apr, 2019
本文提出 ObjectSeeker 用于解决物体探测对象易受攻击者掩盖的补丁攻击问题,通过 patch-agnostic 掩蔽策略实现通过任何白盒自适应攻击的高可信物体检测,证明了其较往前研究在可信鲁棒性方面的显著改进。
Feb, 2022
本文提出了一种基于两阶段学习的方法,通过使用全卷积网络来找到最具区分性的部分,再利用条件反馈抑制最显著的部分以找到次重要的部分,最终实现对整个目标区域的捕捉。采用该训练方案可以有效解决弱监督语义分割、显著区域检测和目标位置预测等任务中只关注图像中最重要部分的问题。
Aug, 2017
利用动态信息和外观信息,我们提出了一种自我监督的目标发现方法,该方法能够生成高质量的目标分割遮罩,并在多个基准测试中取得与现有方法相媲美甚至超越的结果。
Aug, 2023
利用弱监督学习和注意力图,我们提出了一种新的建模方法,使得注意力图成为端到端训练的自然组成部分,并通过直接从网络本身探索监督来直接在这些图上提供自我指导,从而成功地解决了以前方法中的缺点,并在语义分割任务上优于现有技术。
Feb, 2018