Mar, 2024

通过视觉语言模型中的知识增强,提升神经退行性疾病步态视频分析

TL;DR通过基于大规模预训练的视觉语言模型(VLM)的知识增强策略,我们的模型学习并改进了患者步态视频的视觉、文本和数值表示,通过跨三个不同模态的集体学习:步态视频、特定类别的描述以及数值步态参数。实验结果表明,我们的模型不仅在基于视频的分类任务中明显优于最先进技术(SOTA),而且能够熟练地将学到的特定类别文本特征解码成使用定量步态参数词汇的自然语言描述。