基于人类意图推理的跟踪
本文提出了一种基于自然语言指令的推理型物体检测新范式,DetGPT,利用多模态模型和开放词汇物体检测器,在用户指导下自动定位对象,具有灵活性,适用于自动化和无人驾驶等多领域。
May, 2023
本篇论文中,我们使用大语言模型(LLMs)为基础,介绍了一款纯 LLMs 导航代理 NavGPT,通过对视觉和语言导航(VLN)进行零样本顺序动作预测,揭示了 GPT 模型在复杂体验场景中的推理能力,以及它在导航中的应用,通过全面的实验,展示了 NavGPT 可以分解指令成子目标、对与导航任务相关的常识知识进行集成以及适应特殊情况等高级规划能力。
May, 2023
本文提出了一种使用自然语言描述对象并进行多目标跟踪的新范例,介绍了包含文字描述的视频数据集 GroOT,提出了用于这一任务的两个新的评估协议和评估度量,并采用基于 transformer 的 MENDER 方法开发了一种高效的模型,证明其在准确性和效率方面均超越了其他两阶段设计,跟踪精度提高了 14.7%,速度提升了 4 倍。
May, 2023
我们设计了一种有效的视觉 - 语言表示方法,同时为追踪问题构建了一个大型带有语言注释的数据库。通过引入异构架构搜索和模态混合器等核心技术,以及对不同模态之间进行对比损失的引入,我们能够显著改善追踪问题的解决方案,并期望将更多注意力转向视觉 - 语言追踪,为未来的多样化多模态消息追踪开辟更多可能性。
Jul, 2023
对比传统的视觉问答,基于视频的对话需要深入理解对话历史和视频内容以实现准确的响应生成。为了解决现有方法在逐步理解复杂对话历史和融入视频信息方面所面临的挑战,我们提出了一种迭代的跟踪与推理策略,将文本编码器、视觉编码器和生成器相结合。在核心部分,我们的文本编码器具有路径追踪和聚合机制,能够从对话历史中提取对解读提问至关重要的细微差别。同时,我们的视觉编码器采用迭代推理网络,精心设计以从视频中提取和强调关键的视觉标记,增强视觉理解的深度。通过使用预训练的 GPT-2 模型作为响应生成器,将这些丰富的信息整合在一起,生成连贯和与上下文相关的答案。我们在两个有名的数据集上进行的实证评估证实了我们提出设计的实力和适应性。
Oct, 2023
本文提出了一种名为 PerceptionGPT 的新型端到端框架,通过利用 LLMs 的 token 嵌入的表示能力,高效有效地赋予 VLLMs 视觉感知能力。该方法以 LLMs 的 token 嵌入作为空间信息的携带者,利用轻量级的视觉任务编码器和解码器执行视觉感知任务(如检测、分割),有效缓解了以往将视觉输出离散化为 token 的训练困难,并且能够在更少的可训练参数、较少的训练数据和较短的训练时间内实现更优越的性能。此外,由于推理过程中只需要一个 token 嵌入来解码视觉输出,结果序列长度可大幅减少。因此,该方法能够实现准确灵活的表示,无缝集成视觉感知任务,并高效处理多个视觉输出,通过广泛的实验证实了该方法的有效性和效率,结果表明,在更少的可训练参数和 GPU 时间的情况下取得了显著的改进,为未来赋予 LLMs 视觉感知能力的研究提供了便利。
Nov, 2023
该论文提出了一种端到端可训练的方法,结合物体检测和跟踪,并引入了序列记忆模块,使其更好地处理多物体跟踪,尤其是遮挡的情况。经过大规模的合成数据和实际测试,在 KITTI 和 MOT17 数据集上取得了最先进的性能表现。
Mar, 2021
本研究通过将类别特定的外观模型重新定义为通用的物体状态预测,在两种大规模跟踪基准测评(OxUvA 和 GOT)中实现了最先进的结果,并通过添加一个 mask 预测分支,为跟踪的对象生成实例分割掩模。
Oct, 2019
该研究提出了一种新的推理分割任务,以激活感知系统中的推理分割能力,并展示了多模态语言模型 LISA 在复杂推理分割和标准引用分割任务中的有效性。
Aug, 2023
该研究提出了一种名为 RelationTrack 的 MOT 框架,它使用全局上下文分离模块和引导变压器编码器来解决检测和重新识别的矛盾,并通过在性能上显著优于现有的算法来建立了新的最先进性能水平。
May, 2021