Mar, 2024
手术-LVLM:学习适应大型视觉语言模型进行机器人手术中的基于视觉的问题回答
Surgical-LVLM: Learning to Adapt Large Vision-Language Model for
Grounded Visual Question Answering in Robotic Surgery
TL;DR介绍了Surgical-LVLM,这是一种专为复杂手术场景定制的个性化大型视觉-语言模型,通过引入VP-LoRA模块和TIT模块,能够在手术背景下理解复杂的视觉-语言任务,并在多个基准测试中展现了出色的性能,为自动化手术辅导领域做出了贡献。