Mar, 2024
手术 - LVLM:学习适应大型视觉语言模型进行机器人手术中的基于视觉的问题回答
Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery
Guankun Wang, Long Bai, Wan Jun Nah, Jie Wang, Zhaoxi Zhang...
TL;DR介绍了 Surgical-LVLM,这是一种专为复杂手术场景定制的个性化大型视觉 - 语言模型,通过引入 VP-LoRA 模块和 TIT 模块,能够在手术背景下理解复杂的视觉 - 语言任务,并在多个基准测试中展现了出色的性能,为自动化手术辅导领域做出了贡献。