HPE-CogVLM：基于视觉语言模型的新头部姿势定位任务探索

Jun, 2024

HPE-CogVLM：基于视觉语言模型的新头部姿势定位任务探索

HPE-CogVLM: New Head Pose Grounding Task Exploration on Vision Language Model

Yu Tian, Tianqi Shao, Tsukasa Demizu, Xuyang Wu, Hsin-Tai Wu

TL;DR本研究使用 CogVLM 的视觉定位能力，提出了一种新的框架来增强头部姿态估计任务，通过改进大语言模型中的灾难遗忘问题和引入 LoRA 层模型合并方法，有效提高头部姿态估计性能，并且在多个指标上优于现有方法。

Abstract

head pose estimation (HPE) task requires a sophisticated understanding of 3D spatial relationships and precise numerical output of yaw, pitch, and roll Euler angles. Previous HPE studies are mainly based on Non-l

head pose estimation 3d spatial relationships numerical output visual grounding cogvlm

发现论文，激发创造

VLPose: 通过语言视觉调整弥合姿势估计中的域差

通过使用语言模型，我们提出了一种名为 VLPose 的新框架，通过语言和视觉之间的协同作用，增强传统姿势估计模型在自然和人工场景下的泛化和鲁棒性，实现了与最先进的调整策略相比，在 HumanArt 和 MSCOCO 数据集上分别提升了 2.26％和 3.74％。

Feb, 2024

高分辨率开放词汇对象 6D 姿态估计

Horyon 是一种基于开放词汇量的 Vision-Language Model 架构，通过使用自然语言描述来解决视觉中六维位姿估计任务中未见过对象之间的相对位姿估计问题，并在四个数据集上实现了最先进的性能，优于之前的方法。

Jun, 2024

Q-GroundCAM: 通过 GradCAM 度量视觉语言模型中的基准化能力

Vision and Language Models (VLMs) have remarkable zero-shot performance, but struggle with compositional scene understanding and linguistic phrase grounding. This paper introduces novel quantitative metrics using GradCAM activations to evaluate pre-trained VLMs' grounding capabilities and measure their uncertainty, revealing tradeoffs between model size, dataset size, and performance.

Apr, 2024

CogVLM：预训练语言模型的视觉专家

CogVLM 是一种强大的开源视觉语言基础模型，通过可训练的视觉专家模块在注意力和前馈网络层之间填补了预训练语言模型和图像编码器之间的差距，实现了视觉语言特征的深度融合，而不会牺牲在自然语言处理任务上的性能，在 10 个经典的跨模态基准测试中取得了最先进的性能，包括 NoCaps，Flicker30k 字幕，RefCOCO，RefCOCO +，RefCOCOg，Visual7W，GQA，ScienceQA，VizWiz VQA 和 TDIUC，在 VQAv2，OKVQA，TextVQA，COCO 字幕等方面排名第二，超过或与 PaLI-X 55B 相匹配。

Nov, 2023

关于宽广与短程头部姿态估计的表征和方法学

在计算机视觉中，头部姿态估计是一个感兴趣的问题，旨在改善半正面或侧面设置下面部处理任务的性能。本文分析了短距离和长距离头部姿态估计的方法，并讨论了每种情况下适合的表示和度量标准。同时提出了一个量化训练和测试数据集之间不一致性的方法，并基于 CMU Panoptic 数据集提出了广域头部姿态估计基准。

Jan, 2024

HEViTPose：高效视觉变压器用于人体姿态估计

这篇研究论文提出了一种高效率视觉变压器（HEViTPose）用于人体姿势估计，通过特征分组、空间降级机制及多维度注意力头保持特征多样性。通过优化模型的 Patch Embedded Overlap Width，实现了性能、参数和 GFLOPs 的改进，与最先进模型相当，但更轻量化。

Nov, 2023

CogCoM：通过一系列操作训练大型视觉语言模型深入细节

通过一系列的操作，视觉 - 语言模型（VLMs）利用可靠的视觉推理生成可追溯错误原因的可解释路径，实现了最新技术水平的性能。

Feb, 2024

面部、面部特征点和头部姿态联合检测的实时多任务学习系统

该论文提出了一个实时多任务检测系统，能同时执行面部、面部标志和头部姿势的联合检测，以处理大角度面部姿势挑战，并在多个数据集上验证了其实时性能和有效性。

Sep, 2023

GroundVLP：从视觉语言预训练和开放词汇对象检测中利用零样本视觉定位

通过现有的图像 - 文本配对模型和纯物体检测数据，我们提出了一种名为 GroundVLP 的简单而有效的零样本方法，该方法结合了 GradCAM 热力图和开放词汇检测器的对象提案，用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战，实验结果显示该方法在 RefCOCO/+/g 数据集上超过了现有零样本方法的 28％，并且在 Flickr30k 实体数据集上与一些非 VLP 的有监督模型表现相当甚至更好。

Dec, 2023

通过偏好微调来对齐视觉大型语言模型中的模态

通过引入偏好调优和自动生成数据的方法 POVID，本研究解决了视觉大语言模型中可能出现的幻觉问题，并通过直接偏好优化的强化学习模型提高了模型性能。

Feb, 2024