皮肤科人工智能中零样本概念生成的数据对齐
本文研究了如何使用大型语言模型在缺乏公共医疗语料库和注释的情况下,零和少样本学习从临床文本中提取信息,包括跨度识别、令牌级序列分类和关系提取。通过引入新的CAS数据集并进行手动再注释,GPT-3系统在这些任务上明显优于现有的零和少样本基线。
May, 2022
提出了MI-Zero框架,它将对比可视语言预训练模型的零射频转换重构为多实例学习,以在吉盘组织学全幻灯片图像上释放其零射频转换能力,从而在预先训练的编码器不需要任何额外的标签的情况下进行多个下游诊断任务。
Jun, 2023
本文探讨利用特定领域预训练模型(如CXR-BERT、BlueBERT和ClinicalBERT)替换CLIP的BERT权重以提高CLIP的性能,并针对低流行病的疾病检测评估了具有特定领域预训练的零样本分类模型,虽然替换权重降低了常见病的模型表现,但我们发现预训练文本确实对低流行病疾病具有更好的性能,鼓励未来使用多种不同的训练语言模型的集成模型以实现最大性能。
Jun, 2023
该研究提出了一种基于CLIP和ChatGPT的零样本医学图像分类框架,使用大型语言模型自动生成额外的线索和知识以进行更准确和可解释的诊断,展示了VLM和LLM在医疗应用中的巨大潜力。
Jul, 2023
基于视觉语言模型的嵌入学习策略可以在皮肤病诊断中减少对大量概念标注样本的依赖,提高准确性,并且比自动生成概念的特定方法所需的概念标注样本数量更少。
Nov, 2023
通过改进生成式训练中的评价目标,研究致力于缩小生成式字幕生成器和CLIP分类器之间的差距,实现零样本图像分类和图像-文本检索任务上表现可比的效果,并希望进一步研究将生成式与判别式训练程序统一的方法。
Nov, 2023
通过减少视觉和文本之间的模态差异,我们提出了一种零摄影机图片字幕框架,通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和CLIP排序策略来提高字幕性能,并证明其在MSCOCO、Flickr30k和VQAV2等数据集上具有显著的性能提升。
Jan, 2024
利用大规模全扫描图像数据集和多模型协作的方法,生成高质量的图像-文本对,为病理学领域的 Vision Language Models 进行训练和指导调优,从而显著提高其分析病理图像的能力,并为下一代通用病理模型铺平了道路。
Jun, 2024