May, 2024
迈向高效的LLM对实体多智能体协作的隶属
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration
TL;DR通过引入增强优势反馈(ReAd)的多智能体协作模型,我们提出了一种新的用于解决复杂物理世界中大型语言模型(LLMs)推理能力的框架,该框架通过对LLM计划数据进行评论回归来学习顺序优势函数,并将LLM规划器视为最优化器生成最大化优势函数的行动,从而为LLM赋予了能够判断行动是否有助于完成最终任务的远见。