CVPRJun, 2022

通过分层无监督学习将 Vision Transformer 扩展到千兆像素图像

TL;DR本文提出了一种新的 ViT 架构 (HIPT),它利用自我监督学习来学习高分辨率图像表示,并利用 WSI 固有的分层结构进行分层预训练。通过在 33 种癌症类型上对 10,678 个 gigapixel WSI、408,218 个 4096x4096 图像和 104M 个 256x256 图像进行预训练,证明了 HIPT 在癌症亚型划分和生存预测方面优于当前最先进的方法。