MANGO：大型语言模型映射和导航能力评估基准

Mar, 2024

MANGO：大型语言模型映射和导航能力评估基准

MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models

Peng Ding, Jiading Fang, Peng Li, Kangrui Wang, Xiaochen Zhou...

TL;DR提出了 MANGO 基准测试，用于评估大型语言模型在执行基于文本的映射和导航任务时的能力，结果表明即使是迄今为止最强的语言模型 GPT-4 在回答这些问题上表现不佳，而具备强大的映射和导航能力的语言模型对于执行相关下游任务（如玩文本游戏）将会有所好处。

Abstract

large language models such as ChatGPT and GPT-4 have recently achieved astonishing performance on a variety of natural language processing tasks. In this paper, we propose mango, a →

large language models benchmark mapping and navigation textgames mango

发现论文，激发创造

多元文化常识知识蒸馏

通过 MANGO 方法，从概念和文化两个入口点逐步指导大型语言模型，提取文化知识，通过聚类和生成式摘要方法合并，最终获得了 167K 个高准确性的关于 30K 个概念和 11K 个文化的表述，达到了非常显著的提升。将 MANGO 的知识应用于对话系统中，增强了对话系统的整体质量、特异性和文化敏感性，经过人工标注员评价证实。提供数据和代码下载。

Feb, 2024

评估大型语言模型在高考基准测试上的表现

这篇论文介绍了 GAOKAO-Benchmark，它是一个直观的基准测试，利用中国高考考试的问题作为测试样本，对大型语言模型进行评估的一种方法。我们采用基于零 - shot prompts 的方法来分析模型的准确率和评分率，发现 ChatGPT 模型在解决客观问题方面表现优异，同时也揭示了它的不足之处和改进方向，为未来大规模语言模型的评估提供了坚实的基础和有价值的见解。

May, 2023

多模态大型语言模型用于视觉导航

通过简单的文本提示、当前观察和历史收集模型，我们的方法在视觉导航中对大型语言模型进行了精细调优，训练模型使用了来自 Habitat-Matterport 3D 数据集（HM3D）的人类示范和碰撞信号，实验结果表明我们的方法优于最先进的行为克隆方法并有效地降低了碰撞率。

Oct, 2023

关于空间信息的 LLM 固有限制

该论文研究了 ChatGPT 和类似模型在空间推理和导航相关任务中的固有限制，并引入了一种新颖的评估框架和基准数据集以评估 ChatGPT 的空间推理能力。研究揭示了模型在空间理解方面的能力和局限性的关键见解。

Dec, 2023

MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试

这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型 GPT-4 和最弱模型 Llama-2-70B 之间存在三倍的能力差距，同时证实了概率图模型增强了所有模型的能力，平均提高了 50%。

Nov, 2023

探索和提升大型语言模型的空间推理能力

利用大型语言模型 (大型语言模型) 分析 3D 机器人轨迹数据和 2D 方向形状标注等任务，并引入基于前缀的提示机制，提高了性能，为未来的改进提供了基础。

Dec, 2023

MC-GPT: 通过记忆地图和推理链增强视觉与语言导航能力

在视觉语言导航（VLN）任务中，代理器需要按照自然语言指令导航到目的地。本文提出了一套方法来解决现有大型语言模型在构建记忆和导航策略多样性方面面临的问题，通过维护一个包含导航历史、视点、物体及它们的空间关系的拓扑地图来增强导航能力，并通过引入导航思维链模块富化导航策略多样性，最终通过整合感知和动作预测模块建立了一个能提高大型语言模型导航能力和解释性的流水线。实验证明，该方法有效地增强了大型语言模型的导航能力并提高了导航推理的可解释性。

May, 2024

大型语言模型能成为良好的路径规划器吗？空间 - 时间推理的基准和研究调查

大型语言模型在路径规划和空间推理方面取得了显著的成功，少样本的 GPT-4 通过不同的提示方法在空间推理方面表现出了潜力，而微调的 LLMs 则在小环境或有障碍物的情况下难以推广。

Oct, 2023

大型语言模型是翻译质量的最先进评估工具

描述了基于 GPT 的翻译质量评估指标 GEMBA，可以用于有参照的和无参照的情况。研究了四个提示变体，并比较了两种方式下的性能表现，发现只能应用于 GPT 3.5 及以上的模型。在 WMT22 的 Leaderboard 中，GEMBA 在三种语言对中具有先进的性能表现。

Feb, 2023

NavGPT: 基于大语言模型的视觉语言导航的明确推理

本篇论文中，我们使用大语言模型（LLMs）为基础，介绍了一款纯 LLMs 导航代理 NavGPT，通过对视觉和语言导航（VLN）进行零样本顺序动作预测，揭示了 GPT 模型在复杂体验场景中的推理能力，以及它在导航中的应用，通过全面的实验，展示了 NavGPT 可以分解指令成子目标、对与导航任务相关的常识知识进行集成以及适应特殊情况等高级规划能力。

May, 2023