通过扩散模型进行手术三元组识别
本研究提出了一种基于多类仪器感知变换交互图的两阶段网络 MCIT-IG,通过将目标的嵌入作为额外特征来减少三元组错误关联的风险,并构建了一个二分动态图来建模仪器和目标之间的交互,进而提高了手术动作三元组检测的性能。该模型在 CholecT50 数据集上的表现优于其他手术仪器定位和三元组检测方法,在 MICCAI 2022 的 CholecTriplet 挑战中排名第一。
Jul, 2023
通过使用扩散模型结合零样本视频扩散方法,通过文本指定手术动作并通过分割掩模指导生成真实的腹腔镜图像和视频,本研究在提高培训过程中迈出了重要一步,评估了生成的图像的保真度和事实正确性,获得了 FID 指标为 38.097 和 F1-score 指标为 0.71。
Apr, 2024
通过使用 TriTemp-OR 框架,整合图像、点云和语言三种模态,结合时间动态,并借助大规模语言模型,实现对手术场景的综合理解,以预测关系并生成场景图。
Apr, 2024
我们提出了一个同时实现三模态医学图像融合和超分辨率的 TFS-Diff 模型,该模型基于扩散模型生成随机迭代去噪过程,提出了简单的客观函数和融合超分辨率损失方法,通过通道注意模块有效地集成来自不同模态的关键信息,大量实验证明 TFS-Diff 在定量和视觉评估方面显著优于现有的最先进方法。
Apr, 2024
通过扩散生成模型,我们提出了一种直观的方法来从短文本提示生成合成的腹腔镜图像,采用最先进的文本到图像架构,在图像引导手术领域,特别是腹腔镜和机器人辅助手术方面,得到了依靠合成图像数据和虚拟手术训练方法的强力帮助。
Dec, 2023
通过对白内障手术视频数据的分析,我们利用一种基于去噪扩散隐式模型(DDIM)和无分类器指导(CFG)的条件生成模型,能够根据复杂的多类别多标签条件(如手术阶段和手术工具组合)合成多样化、高质量的样本,并证实这些合成样本的工具能被分类器识别,在真实图像与合成图像之间难以区分,从而解决了数据稀缺问题,提高了针对罕见情况的工具分类任务的分类器性能。这种方法可以为白内障手术的自动化辅助系统提供可靠的真实合成数据。
Aug, 2023
本文提出了一种基于变分贝叶斯推理的通用框架,用于在半监督环境中训练参数化的三元马尔可夫链模型,从而实现对顺序贝叶斯分类的多种生成模型的半监督算法。
Sep, 2023
通过使用多模态数据、分层半监督学习框架、基于 Transformer 的网络等方法,该研究提出了一种用于手术姿势分割和手势识别的技术,并在公开可用的 JIGSAWS 数据库上进行了评估,得到了较高的分割和识别准确度。
Jul, 2023
本文提出了一种增强版本的三元组损失函数,名为三元组蒸馏,在多个数据集上展示了其优于原始三元组损失函数的优越性,能够自适应地变化正负样本之间的间隔,从而更好地利用相似性信息来提高紧凑模型的性能。
May, 2019
本文提出了一种全新的无监督学习框架来从单一的输入视频中学习适合于行动分割任务的动作表示,无需任何训练数据,达到了与现有无监督方法相比更高质量的时间边界恢复,并通过应用聚类算法在学习的表示上取得了具有竞争力的表现。
Apr, 2023