Jun, 2024
HPE-CogVLM:基于视觉语言模型的新头部姿势定位任务探索
HPE-CogVLM: New Head Pose Grounding Task Exploration on Vision Language Model
Yu Tian, Tianqi Shao, Tsukasa Demizu, Xuyang Wu, Hsin-Tai Wu
TL;DR本研究使用 CogVLM 的视觉定位能力,提出了一种新的框架来增强头部姿态估计任务,通过改进大语言模型中的灾难遗忘问题和引入 LoRA 层模型合并方法,有效提高头部姿态估计性能,并且在多个指标上优于现有方法。