通过视觉语言模型中的知识增强，提升神经退行性疾病步态视频分析

Mar, 2024

通过视觉语言模型中的知识增强，提升神经退行性疾病步态视频分析

Enhancing Gait Video Analysis in Neurodegenerative Diseases by Knowledge Augmentation in Vision Language Model

Diwei Wang, Kun Yuan, Candice Muller, Frédéric Blanc, Nicolas Padoy...

TL;DR通过基于大规模预训练的视觉语言模型（VLM）的知识增强策略，我们的模型学习并改进了患者步态视频的视觉、文本和数值表示，通过跨三个不同模态的集体学习：步态视频、特定类别的描述以及数值步态参数。实验结果表明，我们的模型不仅在基于视频的分类任务中明显优于最先进技术（SOTA），而且能够熟练地将学到的特定类别文本特征解码成使用定量步态参数词汇的自然语言描述。

Abstract

We present a knowledge augmentation strategy for assessing the diagnostic groups and gait impairment from monocular gait videos. Based on

knowledge augmentation assessment diagnostic groups gait impairment monocular gait videos

发现论文，激发创造

Pose2Gait: 从独眼视频中提取痴呆个体的步态特征

通过基于视频的环境监测老年痴呆患者步态分析，使用深度神经网络从视频中提取出与深度相机相关的三维时空步态特征，可以准确预测出步态的速度和步长信息，并可用于长期环境监测中检测步态方面的有意义变化。

Aug, 2023

可解释的人工智能和机器学习在人类步态恶化分析方向的应用

本研究采用卷积神经网络和机器学习技术，通过分析步态数据并将研究结果与临床相关生物标志联系起来，实现对帕金森氏症认知功能下降的步态分析。

Jun, 2023

利用预训练的视觉 - 语言模型进行视频识别的双向跨模态知识探索

本文介绍了一个名叫 BIKE 的，通过使用视频和文本之间的跨模态桥梁，通过视频设置自动补充的文字辅助属性，和通过文本确定带有时间明显性的位置，以增强视频表示，从而有效提高各种识别情景下的视频识别性能的创新框架。在六个流行的视频数据集中进行的广泛研究表明，我们的方法在各种识别方案中均实现了最先进的性能。

Dec, 2022

增强型大语言模型视频助理

本文旨在开发一个新颖的多模态基础模型 ——Valley: Video Assistant with Large Language model Enhanced ability，实现对视频、图像和语言的感知，并通过 ChatGPT 设计的多任务指令追随视频数据，在人类和视频之间进行各种任务定向的对话，为多语言的视频助手提供高度有效的支持。

Jun, 2023

基于 Transformer 注意力网络从单视角 RGB 视频中学习估计关键的步态参数

在本研究中，通过引入一种新的时空转换网络，利用单视角摄像机拍摄的 RGB 视频，估计关键步态参数，从而在临床步态分析中提供一种更具可用性和经济效益的选择，该方法在公开数据集上的实证评估表明，其优于当前最先进的方法，并在预测一般步态参数时取得显著改进，还能减少参数数量和减轻对手动特征提取的需求。

Dec, 2023

运用视觉语言模型评估骨关节炎疾病严重程度

通过视觉语言处理模型，此研究利用 X 光图像和相关报告预测骨关节炎的严重程度，并展示了在医学背景中特定视觉语言模型的潜在进展和学习文本图像表示及其上下文关系的有效性。

Jan, 2024

将更多关注转移到视觉语言对象追踪上

我们设计了一种有效的视觉 - 语言表示方法，同时为追踪问题构建了一个大型带有语言注释的数据库。通过引入异构架构搜索和模态混合器等核心技术，以及对不同模态之间进行对比损失的引入，我们能够显著改善追踪问题的解决方案，并期望将更多注意力转向视觉 - 语言追踪，为未来的多样化多模态消息追踪开辟更多可能性。

Jul, 2023

基于可解释性人工智能的膝踝足矫形器患者步态分析的视频摄像机方法

近年来，人工智能和计算机视觉的最新技术进展使得步态分析可以在手机等便携设备上进行。本文提出了一种针对摄像机运动具有鲁棒性并提供输出解释的步态分析系统，通过使用运动捕捉系统捕捉的七个特征来区分两种步态，并经验证可靠。

Feb, 2024

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频 - 语言基准上取得了显著结果。

Jan, 2024

基于物理模拟的运动模仿推进单目视频步态分析

使用智能手机获取视频进行步态分析可以揭示许多临床机会以检测和量化步态障碍。然而，现有视频估计步态参数的方法可能产生不符合物理规律的结果。为了解决这个问题，我们使用强化学习训练一个策略来控制人类运动的物理模拟，以复制视频中观察到的运动。这样可以强制推断的运动具有物理可行性，同时提高步幅和步行速度的准确性。

Feb, 2024