结合以语言驱动的外观知识单元和视觉提示的行人检测
本论文提出了一种基于视觉语言自监督学习的上下文感知行人检测方法 (VLPD),采用自生成的显式语义类标签来学习语义分割和行人检测任务,并提出了自我监督原形语义对比学习方法来更好地判别行人和其他分类,并在流行的基准数据集上进行了广泛的实验,证明了我们提出的 VLPD 在小尺度和重度遮挡等挑战性情况下均具有优越的性能。
Apr, 2023
通过利用大型语言模型(LLMs)增强全局交通语境理解来提高动作预测任务的准确性,并考虑到 LLMs 的成本,我们提出了一种成本效益的部署策略:通过拥有 0.7% 的 LLM 增强数据集来扩大动作预测任务的准确性。
Mar, 2024
本文提出了一种构建通用行人知识库的新方法,通过从大规模预训练模型中提取泛化行人知识并对其进行精确化处理,用于增强行人检测框架内的行人特征,实验证明该方法的多功能性和优于最先进的检测性能。
Apr, 2024
通过引入 Large Language Models (LLMs),本研究探究了使用 LLMs 改进行人轨迹预测任务的可能性,通过诱导运动线索生成物体过去 / 观察到的轨迹中的运动线索,并利用混合高斯聚类未来轨迹中的运动线索。我们的方法采用基于 Transformer 的体系结构,包括运动编码器以建模运动模式和社交解码器以捕捉行人之间的社交互动,展示了我们的方法在流行的行人轨迹预测基准数据集 ETH-UCY 和 SDD 上的有效性,并进行了多个消融实验来验证我们的方法。
Mar, 2024
通过利用大型语言模型(LLMs)的语言和推理能力,本研究提出了一个新的框架来增强自动驾驶车辆决策过程。通过在不同场景中进行试验和实时个性化示范,我们展示了利用 LLMs 能够改善驾驶决策、提供个性化驾驶体验并增强自动驾驶的安全和效果。
Oct, 2023
通过融合先进的目标检测和光学字符识别模型,我们在多模态大型语言模型的基础上进行了实证研究,以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法,该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验,我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能,而且保持了其原始优势。结果表明,改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型,在规范化的平均得分上取得了最高 12.99% 的提升,标志着多模态理解领域的重大进展。通过发布我们的代码,我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。
Jan, 2024
本文介绍了一个名为 ContextDET 的多模态模型,该模型解决了现有的 MLLMs 在物体检测方面的局限性,可以对人机交互中的视觉单元进行定位、识别和分配,意义重大。
May, 2023
大语言模型在计算机视觉领域中通过不同的接口机制实现图像字幕和视觉问题回答的任务,通过实验评估各种接口机制和数据集,发现现有机制在多个任务中表现更好,并识别出一种新的接口机制,在不同任务上获得接近最优的结果,并降低了训练时间。
Mar, 2024
利用大型语言模型(LLMs)与强化学习相结合的混合端到端学习框架,通过基于多模态提示标记的基本驾驶模仿学习与 LLMs 的结合,来提高自动驾驶性能。
Apr, 2024