利用大型语言模型对认知代理进行引导

Feb, 2024

利用大型语言模型对认知代理进行引导

Bootstrapping Cognitive Agents with a Large Language Model

Feiyu Zhu, Reid Simmons

TL;DR通过将大型语言模型中的噪声知识与认知模型相结合，我们提出的框架在厨房任务中的具体体验中表明相较于仅基于大型语言模型的代理，我们的方法能够更高效地运作。实验结果表明大型语言模型对认知架构来说是一个信息丰富的来源，并且认知架构能够验证和更新大型语言模型对特定领域的知识。

Abstract

large language models contain noisy general knowledge of the world, yet are hard to train or fine-tune. On the other hand cognitive architectures

发现论文，激发创造

利用语言模型进行具身推理的协作

本文探究将强化学习代理人和大规模语言模型相结合，实现在复杂环境中的推理和泛化的能力，通过预训练语言模型作为规划器，简单的合成体智能作为行动器，和与规划器通信的汇报器这三部分，展示这个系统在零-shot泛化的任务中的表现，并且讨论了其失败情况以及组件使用增强学习的培训任务。

Feb, 2023

规划、消除和跟踪——语言模型是装备智能体的良师益友

使用大型语言模型的知识来简化控制问题，而不是直接解决它，作者提出了Plan, Eliminate, and Track (PET) 框架，并在AlfWorld指令跟随基准测试中取得了显着的15%性能提升。

May, 2023

语言模型遇上世界模型：具身体验增强语言模型

本文提出了一种通过fine-tuning使用世界模型使大型自然语言模型获得基于物理环境的知识和技能，以帮助解决模型在简单的推理和规划中的局限性，实验证明这种方法能够提高基本的LM在18项下游任务上的性能，尤其是1.3B和6B的小LM。

May, 2023

大型语言模型与认知架构的协同集成——鲁棒人工智能的探索性分析

本研究论文探讨了在构建表现出智能行为的人工智能代理中，将大型语言模型（LLMs）和认知架构（CAs）两个子领域进行整合的替代方案。在理论模型的指导下，并通过初步的实证数据支持，我们假设多样化的协同方法可以相互弥补它们各自的弱点和局限性，最终促进更健壮和复杂的人工智能系统的发展。此外，我们还讨论了每种方法所涉及的权衡和挑战。

Aug, 2023

语言代理的认知架构

利用符号人工智能的代理设计历史，我们提出了一种新的认知语言代理的蓝图，即Cognitive Architectures for Language Agents (CoALA)框架，这个框架将大型语言模型与外部资源或内部控制流结合起来，以实现基于语言模型的推理、概念化、学习和决策。通过CoALA框架，我们强调了目前语言代理的不足，并提出了未来发展更强大的语言代理的具体方向。

Sep, 2023

用大型语言模型解释代理行为

智能代理通过观察状态和行为生成自然语言解释，以理解其行为，从而促进与用户的互动。

Sep, 2023

利用语言模型作为认知代理的知识来源

利用大型语言模型作为认知系统的任务知识、认知代理和知识提取，以及通过整合提取与认知架构能力来提高知识提取效果的挑战和机会。

Sep, 2023

理解代理程序：利用大型语言模型进行行为解释

基于状态和行为观察生成自然语言解释，不依赖于基础模型的表示，能解释智能代理行为，使用户能够与预训练的大型语言模型进行交互并生成有助于解释与推理的解释。

Nov, 2023

认知即所需-大型语言模型之上的人工智能下一层

近期关于应用于复杂实际知识工作的对话人工智能工具（如由大型语言模型驱动的聊天机器人）的研究表明，这些工具在推理和多步问题解决方面存在限制，且现有聊天机器人模拟浅层推理和理解，在问题复杂度增加时容易出错。本文介绍了认知人工智能（Cognitive AI）的一个高层框架，用于在大型语言模型之外实现可编程定义的神经符号认知，提出了一个双层功能架构，可用于执行复杂多步知识工作的人工智能系统的路线图，认为Cognitive AI是实现更高级别的人工智能（如AGI）的必要前提，并明确指出仅凭概率方法无法实现AGI。最后讨论了大型语言模型、AI采用周期和商业认知人工智能开发的影响。

Mar, 2024

我们真的需要一个复杂的代理系统吗？将具体化的代理蒸馏成单一模型

STEVE-2 使用层次化知识蒸馏框架，将大型语言模型和多模态语言模型集成到开放式任务中的具身代理中，实现了复杂的任务执行以及对可执行动作的生成。STEVE-2 在导航和创作任务上的广泛评估表明，在开放式任务中，其表现优于其他方法，性能提升了 1.4-7.3 倍。

Apr, 2024