May, 2024

HoneyBee: 用基础嵌入模型创建可扩展的多模态肿瘤学数据集的模块化框架

TL;DR为了解决医学数据的复杂性和异质性所带来的挑战,我们引入了 HoneyBee,一个可扩展的模块化框架,用于构建多模态肿瘤学数据集,通过使用基础模型生成代表性嵌入。该框架整合了包括临床记录、影像数据和患者结果在内的各种数据模态,利用数据预处理技术和基于 Transformer 的架构生成能够捕捉原始医学数据中的重要特征和关系的嵌入。生成的嵌入使用 Hugging Face datasets 和 PyTorch dataloaders 以结构化格式存储,以方便访问。矢量数据库可实现高效的查询和检索,适用于机器学习应用。我们通过评估嵌入的质量和代表性来证明 HoneyBee 的有效性。该框架旨在可扩展到其他医学领域,并旨在通过提供高质量的、机器学习可用的数据集来加速肿瘤学研究。HoneyBee 是一个持续开源的项目,代码、数据集和模型可在项目代码库中获取。