- 预训练的视觉语言模型作为部分注解器
本研究探讨了一种新颖的 “预训练标注 - 弱监督学习” 范式,通过在图像分类任务中基于 CLIP 使用多个提示模板对图像样本进行标注,进而获得多个候选标签以形成含噪部分标签的数据集,并设计了一种协作一致性正则化算法来解决这个问题。实验表明, - ICML多实例不确定性估计的弱监督残余证据学习
在高风险场景中,不确定性估计作为量化预测不确定性的有效手段,在安全可靠的决策中至关重要。然而,现有的不确定性估计方案通常假设存在完全标记的样本来支持全监督学习。实际上,许多不确定性估计任务往往缺乏足够标记的数据,如仅具有弱实例注释的多实例学 - 利用对抗擦除和伪标签改进弱监督目标定位
该论文研究了一种弱监督对象定位的框架,通过仅使用图像和图像级别的类标签训练神经网络,旨在训练出能够同时预测对象类别和位置的神经网络,并通过采用对抗抹除和伪标签来提高定位准确性。在 ILSVRC-2012、CUB-200-2011 和 PAS - 机器人辅助心血管导管插管中多侧分支解码弱监督学习的导丝分割
通过多侧面伪标记的弱监督学习方法,提供便宜且实时的方法,用于机器辅助下心脏导管介入手术中的工具分割和追踪。
- 基于视觉语言辅助的伪标签方法实现弱监督的三维场景图生成
通过视觉语言辅助伪标记,我们提出了 3D-VLAP,一种弱监督的三维场景图生成方法,能够对三维点云场景进行语义对齐并生成场景图,从而在减轻数据标注压力的同时实现与完全监督方法可比较的效果。
- 利用任意单帧图像进行微观和宏观表情检测的弱监督
提出了一种基于点级弱监督的表情捕捉(PWES)框架,用于解决视频级和帧级表情捕捉方法的问题。通过多种策略生成更可靠的伪标签,并利用分布引导的特征对比学习增强特征相似性和变异性。在多个数据集上的实验结果表明,PWES 方法取得了与全监督方法相 - 弱猕猴蛇 UNet:可视化猕猴蛇使 CNN 和 ViT 在基于草图的医学图像分割中更加出色
介绍了一种创新的弱监督学习框架,利用卷积神经网络(CNN)、视觉 Transformer(ViT)和最新的 Visual Mamba(VMamba)架构进行医学图像分割,特别是处理基于涂鸦注释。
- ICCV弱监督时序动作定位中前景和背景分离的再探:基于聚类的方法
基于弱监督学习的时间动作定位,通过只用视频级别的动作标签来定位视频中的动作实例。通过无监督的片段聚类,提出了一种基于聚类的前景与背景分割算法,通过产生匹配多个可能的先验分布的高质量伪标签,确保片段的聚类分配与其前景和背景标签的准确关联,从而 - LanSER: 语言模型支持下的语音情感识别
利用先前训练的大型语言模型,LanSER 通过弱监督学习方法通过推断弱情绪标签实现对未标记数据的利用,并在限制到特定分类方法的情况下使用文本蕴涵方法从自动语音识别中提取的语音转录本选择具有最高蕴涵分数的情绪标签,实验证明,使用这种弱监督方法 - ICCV弱监督自洽学习的通用图像篡改检测
通过弱监督学习方式,本文提出了一种基于自一致性学习的弱监督图像篡改检测方法,该方法通过学习多源一致性和跨补丁一致性来改进图像篡改检测的泛化能力和篡改区域的定位效果,实现了与全监督方法相媲美的性能表现。
- 弱监督音视频事件定位的时间标签细化
本文提出使用基于弱监督学习思想的三个阶段的视频分段方法对同时具有可见和可听觉事件的音频 - 视觉事件进行定位和分类,方法通过用无重叠的帧替换训练数据片段中的帧并使用合成视频进行训练,辅助任务可以更可靠地预测本地化事件标签。
- SimPLe: 基于相似性感知传播学习的 DCE-MRI 弱监督乳腺癌分割
本文提出一种利用极点标注对乳腺癌 DCE-MRI 图像进行弱监督学习分割的方法,使用多阶段 fine-tune 和 SimPLe 等策略,取得了 81% 均值 Dice 值。
- 学习变分目标下的度量方法问题
本文探讨了在度量上撰写类似目标函数的动机,特别是讨论了超出分布泛化和弱监督学习的问题,并提出了一个问题:是否可以将传统的统计学习结果用于度量上的目标函数?这样得出的构造是否会导致新的实用算法?
- UM-CAM:基于不确定性加权的多分辨率类激活图在弱监督下进行胎儿脑分割
本文提出了一种基于 UM-CAM 的新型弱监督学习方法,利用语义特征和上下文信息探测,解决了采用图像级标签的弱监督分割方法中出现的活跃区域不完整的问题,对于胎儿脑分割任务取得了良好的性能。
- KDD弱监督学习的本地提升
本文提出了一种名为 LocalBoost 的弱监督增强框架,从两个维度(即源内和源间)迭代地增强集成模型,进而在七个数据集上达到了优于基准 boosting 方法和其他弱监督方法的表现。
- 基于充气式 3D 卷积 - Transformer 的超声视频弱监督颈动脉狭窄分级
本研究提出了一种基于视频分类的自动颈动脉狭窄分级框架,采用弱监督学习和引入 AMDF 转换器编码器进行多维度特征融合,从大规模的颈动脉超声图像视频数据集中有效地区分颈动脉狭窄,优于强基线模型。
- 三维点云的标签高效深度学习调研
本文首次综述了基于标注效率的点云数据学习,并提出了基于不同类型标签提供的数据前提条件组织标注效率学习方法。该文分类了四种典型的降低点云标注成本的方法:数据增强、域迁移学习、弱监督学习和预训练基础模型,并对这些方法进行了广泛的文献综述。同时, - MEGClass: 通过相互增强的文本粒度进行极弱监督文本分类
提出了一个非常弱监督的文本分类方法 MEGClass,利用一种基于关键字的类定向句子和类表示方法,通过多头注意力网络进行分类,使用迭代反馈提高类表示,细调预训练分类器,相比于其他弱监督方法,MEGClass 在六个基准数据集上表现出更好的性 - 仅借助交互标签和语言 / 视觉 - 语言先验信息的弱监督人体 - 物体 - 交互检测
本文介绍了一种使用图像级别交互标签和预训练的视觉语言模型和大型语言模型在文献中最弱的监督设置下来处理 HOI 检测的方法,该方法包括修剪非交互式人和物体建议来提高袋内正例对的质量、查询特定人类和对象类别之间可能的交互以强制模型不要强调不太可 - CVPR非刚性点云匹配的神经内在嵌入
通过提出神经内在嵌入(NIE)来嵌入每个顶点到高维空间从而建立弱监督的非刚性点云配准框架,无需先前的基础构建或真实配准标签。实验证明我们的框架表现与现代方法相当甚至更好,而这些方法通常需要更多的监督和 / 或结构几何输入。