Lenna: 语言增强推理检测助手

Dec, 2023

Lenna: Language Enhanced Reasoning Detection Assistant

Fei Wei, Xinyu Zhang, Ailing Zhang, Bo Zhang, Xiangxiang Chu

TL;DR本文介绍了一种名为 Lenna 的语言增强推理检测助手，它利用了多模态大语言模型的强大功能并保留了位置信息用于检测，使用 ReasonDet 数据集评估了 Lenna 的推理能力并表现出卓越的性能和低训练成本。

Abstract

With the fast-paced development of multimodal large language models (MLLMs), we can now converse with AI systems in natural languages to understand images. However, the reasoning power and →

multimodal large language models reasoning power world knowledge image perception tasks reasondet dataset

发现论文，激发创造

LISA：利用大型语言模型进行分割推理

该研究提出了一种新的推理分割任务，以激活感知系统中的推理分割能力，并展示了多模态语言模型 LISA 在复杂推理分割和标准引用分割任务中的有效性。

Aug, 2023

民主化推理能力：从大型语言模型的个性化学习

通过多轮互动学习范式和自我反思学习，我们提出了一种定制化学习方法，从而将推理能力传授给较小的语言模型，以促进推理能力的开放和普及。

Oct, 2023

关注驱动推理：释放大型语言模型的潜力

通过优化注意力机制来增强大型语言模型的推理能力，特别是对非科学、技术、工程和数学（STEM）问题的推理能力，通过重新平衡注意力分布来提高模型的抽象能力并探索注意力模式在推理中的作用，为更强大和多功能的语言模型铺平道路。

Mar, 2024

DetGPT: 通过推理检测所需内容

本文提出了一种基于自然语言指令的推理型物体检测新范式，DetGPT，利用多模态模型和开放词汇物体检测器，在用户指导下自动定位对象，具有灵活性，适用于自动化和无人驾驶等多领域。

May, 2023

多模态大语言模型下的上下文目标检测

本文介绍了一个名为 ContextDET 的多模态模型，该模型解决了现有的 MLLMs 在物体检测方面的局限性，可以对人机交互中的视觉单元进行定位、识别和分配，意义重大。

May, 2023

LLM-Seg：图像分割与大型语言模型推理的桥梁

通过大型语言模型推理分割来理解人类指令以识别目标对象是感知系统至关重要的。本研究工作深入探究了推理分割，这是一项新颖任务，通过大型语言模型推理来解释和识别隐含的用户意图，从而对应地进行分割。我们提出了一个名为 LLM-Seg 的新框架，有效地将当前的基础分割模型和 LLM 连接起来，通过掩码提案选择实现。同时，我们通过自动数据生成流程构建了一个新的推理分割数据集 LLM-Seg40K。实验证明，我们的 LLM-Seg 表现出与现有方法相比具有竞争力的性能。此外，我们提出的流程可以高效地生成高质量的推理分割数据集。通过这个流程开发的 LLM-Seg40K 数据集可用于训练和评估各种推理分割方法的新基准。

Apr, 2024

Retriever-Augmented 语言模型能进行推理吗？Retriever 和语言模型之间的责任博弈

该论文研究了不同的检索增强语言模型，如 REALM、kNN-LM、FiD、ATLAS 和 Flan-T5，分析了这些模型在不同任务的文档推理中的优缺点，了解了这些模型在推理失误的情况下，检索器模块以及语言模型是如何根源于推理失误的。

Dec, 2022

基于大型语言模型的自动驾驶的混合推理

研究表明，大型语言模型（LLMs）在自动驾驶场景中能够适应和应用算术和常识推理的组合，通过分析检测到的物体和传感器数据、理解驾驶法规和物理规律，并提供额外的上下文信息，从而改善自动驾驶车辆的制动和油门控制，以做出更准确的决策。

Feb, 2024

以 LLMs 支持用户命令推理的面向人类的自主系统

自动驾驶的进化取得了显著的进展，并成为了一个实际存在的现实。为了确保自动驾驶系统符合用户意图，准确辨别和解释用户指令尤其是在复杂或紧急情况下是至关重要的。为了实现这一目标，我们提出利用大型语言模型（LLMs）的推理能力，从车载用户的指令中推断系统需求。通过一系列实验，包括不同的 LLM 模型和提示设计，我们探索了通过自然语言文本指令从少量样本进行多元二值分类的精确度。我们确认 LLM 可以理解和推理提示，但强调其有效性取决于 LLM 模型的质量和适当的连续提示的设计。代码和模型可在以下链接找到：https://github.com/KTH-RPL/DriveCmd_LLM。

Nov, 2023

LLM-Assist: 基于语言推理增强闭环规划

通过结合传统规则基于的规划器与基于大型语言模型的规划器，利用 LLMs 的常识推理能力解决自动驾驶车辆面临的复杂场景，实现了最先进的性能，超越了所有现有的纯学习和基于规则的方法。

Dec, 2023