您的同事很重要：评估语言模型在 Blocks World 中的协作能力

Mar, 2024

您的同事很重要：评估语言模型在 Blocks World 中的协作能力

Your Co-Workers Matter: Evaluating Collaborative Capabilities of Language Models in Blocks World

Guande Wu, Chen Zhao, Claudio Silva, He He

TL;DR通过设计一个块世界环境，在这个环境中，两个拥有独特目标和技能的语言代理需要通过行动和自然语言交流合作来建立一个目标结构，并采用中间推理步骤来模拟合作者的状态并识别和纠正执行错误，最终的实验结果表明语言代理具有很强的基础能力，并且我们的方法显著改进了评估指标。

Abstract

language agents that interact with the world on their own have great potential for automating digital tasks. While large language model (LLM) agents have made progress in understanding and executing tasks such as textual games and webpage control, many real-world tasks also require

language agents collaboration blocks-world environment natural language communication evaluation metric

发现论文，激发创造

我们来谈谈：探索竞争 LLM 代理商的自发合作

最近的研究发现，由大型语言模型（LLMs）驱动的代理人具有模拟人类行为和社会动态的能力。我们通过三个案例研究揭示，即使在竞争环境中，LLM 代理人也能够自发地建立合作关系。这一发现不仅展示了 LLM 代理人模仿人类社会中竞争与合作的能力，而且验证了计算社会科学的一个有前途的愿景。具体来说，它表明 LLM 代理人可以用来模拟人类社会交互，包括自发的合作，从而为社会现象提供洞察力。

Feb, 2024

基于协作生成代理的 LLM 任务导向协调中人类行为互动模拟

应用大型语言模型（LLMs）在各种任务和社会模拟中取得了显著进展，但它们在任务导向的社会背景中的协调能力尚未得到充分探索。为了弥合这一差距，我们引入了协作生成代理，为基于 LLMs 的代理赋予一致的行为模式和解决任务的能力。我们将这些代理置于一个模拟的招聘会环境中进行案例研究，以审查它们的协调能力。我们提出了一个新颖的框架，赋予协作生成代理人类般的推理能力和专业技能。我们的评估结果表明，这些代理显示出有希望的性能。然而，我们也发现了限制，阻碍了它们在更复杂的协调任务中的效果。我们的工作对于 LLMs 在任务导向的社会模拟中的作用和发展提供了有价值的见解。

Oct, 2023

多智能体协作：发挥智能 LLM 代理的力量

本文提出了一种通过多智能体系统来增强大型语言模型（LLMs）能力的新框架，并通过人工智能领域的案例研究展示了这一框架的实用性和多样性。

Jun, 2023

具身 LLM 代理学会在组织团队中合作

该论文通过在大型语言模型的代理上引入基于提示的组织结构，以提高团队效率并降低沟通成本。

Mar, 2024

基于大型语言模型的人工智能与人类合作解决复杂任务

基于大型语言模型的人机协作研究旨在解决 LLM 智能代理在适应动态环境和完全理解人类需求方面的不足，在此工作中，我们介绍了复杂任务解决中基于 LLM 的人机协作问题，并提出了一种基于强化学习的人机协作方法 ReHAC，该方法通过策略模型确定人类干预的最佳时机，为此我们构建了一个供离线强化学习环境训练该策略模型的人机协作数据集，验证测试结果证实了模型的有效性，研究结果表明，人类和 LLM 智能代理的协同努力通过精心计划的有限人类干预显著提高了复杂任务的性能。数据集和代码可在此链接获取：this https URL

Feb, 2024

评估大型语言模型中的多智能体协调能力

该研究介绍了使用大型语言模型在多智能体协调方面的有效性评估，构建了 LLM-Co 框架来使 LLMs 能够进行协调游戏，并展示了 LLMs 在不同方面的评估结果，从而强调了 LLMs 在复杂协调环境中的潜力。

Oct, 2023

使用大语言模型模块化地构建合作体验智能体

论文提出了一种新的基于大型语言模型的多智能体合作框架，在多种身体环境中测试并得到了良好的效果，其具备规划、沟通和与其他人类或智能体合作完成长期任务等能力，并且与人类沟通的模型更容易获得信任，这为未来的智能体合作研究奠定了基础。

Jul, 2023

合作评估：探索大型语言模型与人类在开放式生成评估中的协同作用

为了解决开放式自然语言生成任务中评估标准不一致的挑战，我们提出了一种协同评估流程 CoEval，涉及特定任务标准的清单设计和文本的详细评估，其中大型语言模型生成初步的构思，而人类进行审查，结果显示，通过利用大型语言模型，CoEval 能够高效地评估长文本，节省时间并减少人类评估的异常值，人类审查仍然起着重要作用，以最终确保可靠性。

Oct, 2023

基于大型语言模型的协作框架实现自动机器人开发

通过创新的自动协作框架，借鉴实际机器人开发者的经验，利用多个大型语言模型在分析、编程和测试等不同角色中合作，深入挖掘用户需求、生成精确代码，并根据用户反馈调整参数以实现复杂的机器人开发任务，无需专业知识，仅依靠非专家参与。

Feb, 2024

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023