您的同事很重要:评估语言模型在 Blocks World 中的协作能力
最近的研究发现,由大型语言模型(LLMs)驱动的代理人具有模拟人类行为和社会动态的能力。我们通过三个案例研究揭示,即使在竞争环境中,LLM 代理人也能够自发地建立合作关系。这一发现不仅展示了 LLM 代理人模仿人类社会中竞争与合作的能力,而且验证了计算社会科学的一个有前途的愿景。具体来说,它表明 LLM 代理人可以用来模拟人类社会交互,包括自发的合作,从而为社会现象提供洞察力。
Feb, 2024
应用大型语言模型(LLMs)在各种任务和社会模拟中取得了显著进展,但它们在任务导向的社会背景中的协调能力尚未得到充分探索。为了弥合这一差距,我们引入了协作生成代理,为基于 LLMs 的代理赋予一致的行为模式和解决任务的能力。我们将这些代理置于一个模拟的招聘会环境中进行案例研究,以审查它们的协调能力。我们提出了一个新颖的框架,赋予协作生成代理人类般的推理能力和专业技能。我们的评估结果表明,这些代理显示出有希望的性能。然而,我们也发现了限制,阻碍了它们在更复杂的协调任务中的效果。我们的工作对于 LLMs 在任务导向的社会模拟中的作用和发展提供了有价值的见解。
Oct, 2023
基于大型语言模型的人机协作研究旨在解决 LLM 智能代理在适应动态环境和完全理解人类需求方面的不足,在此工作中,我们介绍了复杂任务解决中基于 LLM 的人机协作问题,并提出了一种基于强化学习的人机协作方法 ReHAC,该方法通过策略模型确定人类干预的最佳时机,为此我们构建了一个供离线强化学习环境训练该策略模型的人机协作数据集,验证测试结果证实了模型的有效性,研究结果表明,人类和 LLM 智能代理的协同努力通过精心计划的有限人类干预显著提高了复杂任务的性能。数据集和代码可在此链接获取:this https URL
Feb, 2024
该研究介绍了使用大型语言模型在多智能体协调方面的有效性评估,构建了 LLM-Co 框架来使 LLMs 能够进行协调游戏,并展示了 LLMs 在不同方面的评估结果,从而强调了 LLMs 在复杂协调环境中的潜力。
Oct, 2023
论文提出了一种新的基于大型语言模型的多智能体合作框架,在多种身体环境中测试并得到了良好的效果,其具备规划、沟通和与其他人类或智能体合作完成长期任务等能力,并且与人类沟通的模型更容易获得信任,这为未来的智能体合作研究奠定了基础。
Jul, 2023
为了解决开放式自然语言生成任务中评估标准不一致的挑战,我们提出了一种协同评估流程 CoEval,涉及特定任务标准的清单设计和文本的详细评估,其中大型语言模型生成初步的构思,而人类进行审查,结果显示,通过利用大型语言模型,CoEval 能够高效地评估长文本,节省时间并减少人类评估的异常值,人类审查仍然起着重要作用,以最终确保可靠性。
Oct, 2023
通过创新的自动协作框架,借鉴实际机器人开发者的经验,利用多个大型语言模型在分析、编程和测试等不同角色中合作,深入挖掘用户需求、生成精确代码,并根据用户反馈调整参数以实现复杂的机器人开发任务,无需专业知识,仅依靠非专家参与。
Feb, 2024