视野逐层学习范式推动基因剪接识别
本文介绍了全面和多粒度的前列腺切除手术场景理解(GraSP)数据集,它将手术场景理解建模为具有不同粒度的互补任务的层次结构。我们的方法能够对手术活动进行多级理解,包括手术阶段和步骤识别等长期任务,以及手术器械分割和原子视觉动作检测等短期任务。为了利用我们提出的基准,我们引入了 Transformers for Actions、Phases、Steps 和 Instrument Segmentation(TAPIS)模型,这是一个将全局视频特征提取器与来自器械分割模型的局部区域提议相结合的通用架构,以应对我们基准的多粒度特性。通过广泛的实验,我们展示了在短期识别任务中包括分割注释的影响,突出了每个任务的不同粒度要求,并证明了 TAPIS 模型相对于以前提出的基线和传统的基于 CNN 的模型的优越性。此外,我们通过在多个公共基准上验证我们的方法的鲁棒性,确认了我们数据集的可靠性和适用性。这项工作在内窥镜视觉领域迈出了重要的一步,为将来研究提供了一个新颖且全面的框架,以实现对手术程序的全面理解。
Jan, 2024
提出了一种基于视觉转换器的方法来联合学习时空特征,以自动进行手术步骤识别,通过在两个白内障手术视频数据集上的广泛评估,证明了该方法在自动手术步骤识别方面具有优异的性能。
Jul, 2023
通过物理驱动型生成对抗网络(GAN),整合了单像素红外高光谱成像(HSI)的物理过程,并利用真实和估计的一维桶信号作为目标函数的约束条件来更新网络参数并优化生成器,从而实现了更高的成像性能但需要更少的测量次数。我们相信这一物理驱动型 GAN 将促进计算成像,特别是各种基于单像素成像技术的实际应用。
Nov, 2023
本文提出了一种针对零样本学习、广义零样本学习和少样本学习的语义细化 Wasserstein 生成对抗网络 (SRWGAN) 模型,采用多头表示和分层对齐技术实现语义细化,为分离的类别特征生成提供无偏差的条件,将应用于归纳和转导设置中,并在六个基准数据集上获得了最先进的结果。
Feb, 2022
本文提出了一种新颖的广义零样本学习(GZSL)方法,它对训练期间的未见图像和未见语义向量具有不可知性。通过提出一种视觉实例的低维嵌入来打破视觉 - 语义间隙,并借助一个新的视觉神谕来量化噪声语义数据的影响,以提高准确性。在一系列数据集上用图模型进行推理的实验结果显示,该方法在语义和视觉监督下均明显优于现有技术。
Nov, 2018
本文提出了一种基于模拟器优势信息和生成对抗网络的新型无监督领域自适应算法 SPIGAN,用于在真实场景下对图像语义分割任务进行训练,结果表明我们的方法优于现有的无监督域适应技术。
Oct, 2018
本文提出了一种基于身份指导的人类语义解析方法(ISP),通过级联聚类来生成伪标签,并仅利用人的身份标签来定位人体部位和个人物品并实现像素级别的对齐,最终从中获得人体部位和个人物品的本地特征,验证表明,该方法在三个被广泛使用的数据集上优于大量先进方法。
Jul, 2020
本文提出一种半监督学习的策略,通过使用先验信息(privileged information)对教师伪标记(teacher's pseudo-labeling)进行增强,解决空间转录组学中对原位测序(In-Situ-Sequencing)图像进行半监督目标检测(semi-supervised object detection)中的条形码解码问题。
Jun, 2023
通过利用生成建模,我们提出了一个学习算法,在没有给定未知信息的情况下持续进行零样本学习,并在 AWA1、AWA2、CUB 和 SUN 数据集上实现了超出现有连续零样本学习方法的 3-7% 的最新性能。
Aug, 2023
利用 Hyperspectral Imaging 和 Machine Learning 相结合的方法,采用 Graph Neural Networks 以及 Convolutional Neural Network,通过对局部图像特征和空间上下文信息的建模,实现在肿瘤和健康组织之间进行准确分割的目标。
Nov, 2023