Apr, 2024

深度定位:利用变点检测进行时序动作定位

TL;DR我们介绍了 DeepLocalization,这是一个创新的框架,专门用于实时监测驾驶行为的定位。通过利用先进的深度学习方法,我们旨在解决分散注意力驾驶这一导致道路事故的严重问题。我们的策略采用了两个方法:利用基于图的变点检测来确定行为的时间点,以及使用视频大型语言模型 (Video-LLM) 来准确分类活动。通过精心的提示工程,我们定制了视频大型语言模型,以处理驾驶活动的微妙之处,确保在稀疏数据情况下的分类效果。我们的框架经过轻量级优化,能够在消费级 GPU 上应用广泛。我们在 SynDD2 数据集上对我们的方法进行了严格测试,这是一个评估分散驾驶行为的复杂基准,结果显示出显着的性能,事件分类准确率为 57.5%,事件检测准确率为 51%。这些结果突显了 DeepLocalization 在准确识别不同驾驶行为及其时间发生的潜力,同时适用于有限的计算资源。