调查 - 巩固 - 利用：一种面向任务间代理自进化的通用策略

Jan, 2024

调查 - 巩固 - 利用：一种面向任务间代理自进化的通用策略

Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent Self-Evolution

Cheng Qian, Shihao Liang, Yujia Qin, Yining Ye, Xin Cong...

TL;DR通过 Investigate-Consolidate-Exploit（ICE）策略，本文介绍了一种提高 AI 代理的适应性和灵活性的新方法。与现有的针对任务内学习的方法不同，ICE 促进了任务间知识的转移，实现了真正的自我演化，类似于人类的经验学习。通过动态调查、整合简化工作流程和流水线，并利用它们改进任务执行，我们在 XAgent 框架上的实验证明了 ICE 的有效性，将 API 调用量减少了 80％，并显著降低了模型能力的需求。尤其是与 GPT-3.5 结合使用时，ICE 在各种代理任务上的性能与原始 GPT-4 相匹配。我们认为这种自我演化的方法代表了代理设计的范式转变，为更健壮的 AI 社区和生态系统做出了贡献，距离完全自主更近了一步。

Abstract

This paper introduces investigate-consolidate-exploit (ICE), a novel strategy for enhancing the adaptability and flexibility of

investigate-consolidate-exploit adaptability flexibility inter-task self-evolution ai agents

发现论文，激发创造

想象，初始化和探索：一种有效的多智能体强化学习探索方法

通过使用一种新的方法，称为 Imagine, Initialize, and Explore (IIE)，该方法使用转换模型使多个智能体达到关键状态，并以此为起点进行探索，实现高效多智能体探索。在实际测试中，IIE 在复杂环境下表现出优异的性能，超过了其他多智能体探索基线，特别在稀疏奖励任务中有更好的表现，并产生比 CVAE-GAN 和扩散模型更有效的课程。

Feb, 2024

强化学习中的上下文探索与利用

在传统的强化学习方法中，基于离线学习的在线策略学习是一种有希望的方法，然而其高昂的计算成本限制了其应用广度。本文提出了一种优化在线策略学习效率的 In-context Exploration-Exploitation (ICEE) 算法，通过在 Transformer 模型中在输入过程中进行探索利用的平衡策略，从而避免了昂贵的显式贝叶斯推断过程，并证明了该算法相比现有方法能以更少的训练时间学习解决新的强化学习任务。

Mar, 2024

单智能体游戏中的策略提取

本文提出了一种用行为策略作为可转移知识的方法进行知识转移的方法，定义了策略，并结合观察到的事件频率信息和局部序列对齐技术来提取策略，并在三种环境下得出了可行的策略，这是提取知识进行泛化和最终的转移学习的有希望的第一步。

May, 2023

上下文编辑：从自引导分布中学习知识

已有的语言模型微调范式在知识编辑场景下容易出现脆弱性，本文提出了一种名为一致上下文编辑（ICE）的新方法，利用模型的上下文学习能力来调整模型以适应上下文分布而非单一目标，通过直观的优化框架增强了梯度调整方法的鲁棒性和效果，实验证明了 ICE 的优势及其在不断编辑中的潜力，确保了更新的信息被纳入同时保持模型的完整性。

Jun, 2024

基于语言模型的特征选择方法 ICE-SEARCH

该研究提出了 In-Context Evolutionary Search (ICE-SEARCH) 方法，将语言模型与进化算法相结合，用于特征选择任务，并证明其在医学预测分析应用中的有效性。ICE-SEARCH 利用语言模型内在的交叉和变异能力，在进化框架中显著改进特征选择，通过模型的全面世界知识和适应多种角色的能力。我们对中风、心血管疾病和糖尿病等三个关键医学预测分析任务进行了评估，ICE-SEARCH 在定位医学应用中的关键特征方面超越传统的特征选择方法。ICE-SEARCH 在中风和糖尿病预测方面取得了最先进的性能，在心血管疾病预测方面，决策随机化的 ICE-SEARCH 排名最先进。我们的结果不仅证明了 ICE-SEARCH 在医学特征选择中的有效性，还强调了将语言模型整合到特征选择任务中的多功能性、效率和可扩展性。该研究强调了纳入领域特定洞见的关键作用，展示了 ICE-SEARCH 的鲁棒性、泛化能力和快速收敛性，为进一步研究全面而复杂的特征选择领域开辟了新的途径，标志着人工智能在医学预测分析中的重要进展。

Feb, 2024

自适应即时策略对接

本文提出了使用贝叶斯推断和 Gibbs 采样等技术来解决多智能体强化学习协作中的协调难题，以实现智能体对人类和其他智能体的有效交互，并在 Hanabi 这个复杂的纸牌游戏中表现出了强大的能力。

Mar, 2022

综合先前策略解决新任务

多任务强化学习通过提供一种常见的形式化方法 IKH，聚焦于多任务强化学习的模块化和组合性，以增强智能体在动态环境中的学习和适应能力。

Jun, 2024

多智能体自学课程中的紧急工具使用

通过多智能体竞争、自我监督的自动课程设置以及规模化的强化学习算法，我们发现代理创建了多个不同的新兴策略，其中许多需要复杂的工具使用和协调，并提供了有关多智能竞争可能扩展至更复杂环境的证据。

Sep, 2019

作为多智能体强化学习的内在探索支架的个体贡献

在多智能体强化学习中，通过评估每个智能体的贡献来激励探索是一种能在稀疏奖励环境下促进多智能体探索的新方法。通过构建基于贝叶斯惊喜的探索支架，ICES 利用集中式训练期间的全局转换信息来指导个体智能体的行动，并将探索策略与利用策略分离，使前者能够在训练期间利用特权的全局信息。在合作式基准任务上进行的大量实验验证了 ICES 相对于基准线具有卓越的探索能力。

May, 2024

REX：AI 代理的快速探索与利用

我们在本文中提出了一种增强的 Rapid Exploration and Exploitation for AI Agents 方法，称为 REX。该方法通过引入额外的奖励层和集成类似于 Upper Confidence Bound (UCB) 分数的概念，提高了 AI 代理的性能。通过与 Chain-of-Thoughts (CoT) 和 Reasoning viA Planning (RAP) 等现有方法进行对比分析，REX 方法表现出相当甚至超过这些现有技术所取得的结果。值得注意的是，REX 方法在执行时间上显著减少，提高了在多种情景中的实际适用性。

Jul, 2023