Apr, 2025
通过多模态视觉-时间转换器和生成性人工智能增强外科文档记录
Enhancing Surgical Documentation through Multimodal Visual-Temporal
Transformers and Generative AI
TL;DR本研究解决了外科视频自动摘要的需求,旨在改善手术文档记录、支持外科培训并促进术后分析。提出了一种多模态框架,结合计算机视觉与大型语言模型,生成全面的视频摘要,并在CholecT50数据集上表现出色,显示出其在外科报告中的潜在影响。