结合以语言驱动的外观知识单元和视觉提示的行人检测

Nov, 2023

结合以语言驱动的外观知识单元和视觉提示的行人检测

Incorporating Language-Driven Appearance Knowledge Units with Visual Cues in Pedestrian Detection

Sungjune Park, Hyunjun Kim, Yong Man Ro

TL;DR通过将大型语言模型与视觉线索相结合，我们提出一种新的方法来理解语境外观变化并将其知识应用于行人检测任务，通过与大量描述行人外观的叙述语料库结合，提取代表外观变化的知识集合，并通过任务驱动的过程获得与行人检测相关的外观知识单元，最终实现与视觉线索的融合，从而提供丰富的外观信息，并验证了该方法的有效性。

Abstract

large language models (LLMs) have shown their capability in understanding contextual and semantic information regarding appearance knowledge of instances. In this paper, we introduce a novel approach to utilize the strength of an LLM in understanding →

large language models contextual appearance variations pedestrian detection appearance knowledge units visual cues

发现论文，激发创造

VLPD: 通过视觉语义自监督实现上下文感知的行人检测

本论文提出了一种基于视觉语言自监督学习的上下文感知行人检测方法 (VLPD)，采用自生成的显式语义类标签来学习语义分割和行人检测任务，并提出了自我监督原形语义对比学习方法来更好地判别行人和其他分类，并在流行的基准数据集上进行了广泛的实验，证明了我们提出的 VLPD 在小尺度和重度遮挡等挑战性情况下均具有优越的性能。

Apr, 2023

大型语言模型驱动的上下文感知运动预测

通过利用大型语言模型（LLMs）增强全局交通语境理解来提高动作预测任务的准确性，并考虑到 LLMs 的成本，我们提出了一种成本效益的部署策略：通过拥有 0.7% 的 LLM 增强数据集来扩大动作预测任务的准确性。

Mar, 2024

构建多功能行人知识库实现鲁棒性行人检测

本文提出了一种构建通用行人知识库的新方法，通过从大规模预训练模型中提取泛化行人知识并对其进行精确化处理，用于增强行人检测框架内的行人特征，实验证明该方法的多功能性和优于最先进的检测性能。

Apr, 2024

LG-Traj: LLM 指导的行人轨迹预测

通过引入 Large Language Models (LLMs)，本研究探究了使用 LLMs 改进行人轨迹预测任务的可能性，通过诱导运动线索生成物体过去 / 观察到的轨迹中的运动线索，并利用混合高斯聚类未来轨迹中的运动线索。我们的方法采用基于 Transformer 的体系结构，包括运动编码器以建模运动模式和社交解码器以捕捉行人之间的社交互动，展示了我们的方法在流行的行人轨迹预测基准数据集 ETH-UCY 和 SDD 上的有效性，并进行了多个消融实验来验证我们的方法。

Mar, 2024

示例引导的对比学习用于行人检测

本研究提出了一种基于对比学习的方法，将代表行人外观的先验知识转化为示例字典，通过最小化不同外貌之间的语义距离来消除外观多样性，从而有效地检测行人。

Nov, 2021

接收、推理和反应：在自动驾驶车辆中根据您的指令驾驶的大型语言模型

通过利用大型语言模型（LLMs）的语言和推理能力，本研究提出了一个新的框架来增强自动驾驶车辆决策过程。通过在不同场景中进行试验和实时个性化示范，我们展示了利用 LLMs 能够改善驾驶决策、提供个性化驾驶体验并增强自动驾驶的安全和效果。

Oct, 2023

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型，在规范化的平均得分上取得了最高 12.99% 的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024

多模态大语言模型下的上下文目标检测

本文介绍了一个名为 ContextDET 的多模态模型，该模型解决了现有的 MLLMs 在物体检测方面的局限性，可以对人机交互中的视觉单元进行定位、识别和分配，意义重大。

May, 2023

数据效率改进基于感知增强的 LLMs 基准

大语言模型在计算机视觉领域中通过不同的接口机制实现图像字幕和视觉问题回答的任务，通过实验评估各种接口机制和数据集，发现现有机制在多个任务中表现更好，并识别出一种新的接口机制，在不同任务上获得接近最优的结果，并降低了训练时间。

Mar, 2024

使用 LLMs 增强端到端自主驾驶模仿学习的多模态记号提示

利用大型语言模型（LLMs）与强化学习相结合的混合端到端学习框架，通过基于多模态提示标记的基本驾驶模仿学习与 LLMs 的结合，来提高自动驾驶性能。

Apr, 2024