Aug, 2024

LLaVA-Surg:通过结构化外科视频学习迈向多模态外科助手

TL;DR本研究针对现有外科视频缺乏理解与对话能力的问题,提出了一个新颖的解决方案。通过构建包含102,000个外科视频-指令对的新数据集Surg-QA,并采用两阶段问答生成管道,显著提高了外科视频的多模态对话能力。研究成果表明,LLaVA-Surg在开放式外科视频问答任务中,性能明显超越之前的模型,显示出卓越的多模态对话能力。