Jul, 2024

GPT超声:通过VLM从前臂超声图像解码手势

TL;DR大型视觉语言模型(如GPT-4o)是新兴的多模态基础模型,具有作为强大的人工智能辅助工具在医疗、工业和学术等领域的巨大潜力,虽然这类基础模型在广泛的常规任务中表现良好,但是在专门任务中它们在没有进行精细调整的情况下通常受到限制。然而,由于计算/内存/数据集要求巨大,完全调整大型基础模型具有挑战性。我们展示出GPT-4o即使在没有进行精细调整的情况下也能从前臂超声数据中解码手势,并通过少样本、上下文学习得到提升。