Oct, 2024

外科场景理解的手术-LLaVA:利用大型语言和视觉模型

TL;DR本研究解决了当前较少关注手术场景的语言视觉模型的局限性,提出了一种专门设计的外科场景大语言视觉模型Surgical-LLaVA。该模型通过结合手术图像和视频的视觉表示与语言特征空间,展示了在手术背景下令人印象深刻的多模态聊天能力,且在复杂手术场景中表现出优越的性能。