Lenna: 语言增强推理检测助手
该研究提出了一种新的推理分割任务,以激活感知系统中的推理分割能力,并展示了多模态语言模型 LISA 在复杂推理分割和标准引用分割任务中的有效性。
Aug, 2023
通过优化注意力机制来增强大型语言模型的推理能力,特别是对非科学、技术、工程和数学(STEM)问题的推理能力,通过重新平衡注意力分布来提高模型的抽象能力并探索注意力模式在推理中的作用,为更强大和多功能的语言模型铺平道路。
Mar, 2024
本文提出了一种基于自然语言指令的推理型物体检测新范式,DetGPT,利用多模态模型和开放词汇物体检测器,在用户指导下自动定位对象,具有灵活性,适用于自动化和无人驾驶等多领域。
May, 2023
本文介绍了一个名为 ContextDET 的多模态模型,该模型解决了现有的 MLLMs 在物体检测方面的局限性,可以对人机交互中的视觉单元进行定位、识别和分配,意义重大。
May, 2023
通过大型语言模型推理分割来理解人类指令以识别目标对象是感知系统至关重要的。本研究工作深入探究了推理分割,这是一项新颖任务,通过大型语言模型推理来解释和识别隐含的用户意图,从而对应地进行分割。我们提出了一个名为 LLM-Seg 的新框架,有效地将当前的基础分割模型和 LLM 连接起来,通过掩码提案选择实现。同时,我们通过自动数据生成流程构建了一个新的推理分割数据集 LLM-Seg40K。实验证明,我们的 LLM-Seg 表现出与现有方法相比具有竞争力的性能。此外,我们提出的流程可以高效地生成高质量的推理分割数据集。通过这个流程开发的 LLM-Seg40K 数据集可用于训练和评估各种推理分割方法的新基准。
Apr, 2024
该论文研究了不同的检索增强语言模型,如 REALM、kNN-LM、FiD、ATLAS 和 Flan-T5,分析了这些模型在不同任务的文档推理中的优缺点,了解了这些模型在推理失误的情况下,检索器模块以及语言模型是如何根源于推理失误的。
Dec, 2022
研究表明,大型语言模型(LLMs)在自动驾驶场景中能够适应和应用算术和常识推理的组合,通过分析检测到的物体和传感器数据、理解驾驶法规和物理规律,并提供额外的上下文信息,从而改善自动驾驶车辆的制动和油门控制,以做出更准确的决策。
Feb, 2024
自动驾驶的进化取得了显著的进展,并成为了一个实际存在的现实。为了确保自动驾驶系统符合用户意图,准确辨别和解释用户指令尤其是在复杂或紧急情况下是至关重要的。为了实现这一目标,我们提出利用大型语言模型(LLMs)的推理能力,从车载用户的指令中推断系统需求。通过一系列实验,包括不同的 LLM 模型和提示设计,我们探索了通过自然语言文本指令从少量样本进行多元二值分类的精确度。我们确认 LLM 可以理解和推理提示,但强调其有效性取决于 LLM 模型的质量和适当的连续提示的设计。代码和模型可在以下链接找到:https://github.com/KTH-RPL/DriveCmd_LLM。
Nov, 2023
通过结合传统规则基于的规划器与基于大型语言模型的规划器,利用 LLMs 的常识推理能力解决自动驾驶车辆面临的复杂场景,实现了最先进的性能,超越了所有现有的纯学习和基于规则的方法。
Dec, 2023