零样本人工智能协同的最大熵基于人口训练

Dec, 2021

零样本人工智能协同的最大熵基于人口训练

Maximum Entropy Population-Based Training for Zero-Shot Human-AI Coordination

Rui Zhao, Jinming Song, Yufeng Yuan, Hu Haifeng, Yang Gao...

TL;DR本文提出了一种通过最大熵种群训练（MEP）来训练 RL 系统的方法，以促进代理系统间的多样性和个体代理自身的多样性，并通过优先采样对资深代理进行训练。在 Overcooked 游戏环境中，与自我游戏 PPO（SP）等方法进行比较，我们证明了 MEP 方法的有效性。

Abstract

We study the problem of training a reinforcement learning (RL) agent that is collaborative with humans without using any human data. Although such agents can be obtained through self-play training, they can suffe

reinforcement learning maximum entropy population-based training distributional shift diversity self-play training

发现论文，激发创造

无需人类数据的人机协作

本文探究如何培训出更好地与人类合作的机器人，提出了一种名为 Fictitious Co-Play 的方法，通过与自己过去的训练成果和自己对战来训练代理人合作，实证实验显示在与新型代理人和人类伙伴（比如二人协作烹饪模拟器）合作时，使用 FCP 方法产生显著更高的学习效果与人类喜好。

Oct, 2021

强化学习中的超参数优化的泛化基于人口的训练

通过引入更灵活、更具体的超参数适应框架 Generalized Population-Based Training 和综合性的 Pairwise Learning 策略，我们的方法在自适应性和计算效率方面显著优于传统的 Population-Based Training，并且在一系列增强学习基准测试中持续优于传统的 PBT 和其贝叶斯优化变体。

Apr, 2024

一种人工智能协作人口训练的层级方法

介绍了一种基于层级深度强化学习的人机协作方法，通过训练一个智能体来适应不同的合作伙伴，并且在 2 人合作的 Overcooked 游戏中进行测试验证。

May, 2023

贝叶斯生成式基于种群的训练

本文介绍了一种自动化强化学习算法 —— 基于种群训练的方法，并提出了使用基于贝叶斯优化的信任域方法和使用代际方法在单次训练中联合学习架构和超参数的创新解决方案，通过在高度并行的 Brax 物理引擎中验证得到了良好的性能。

Jul, 2022

最大因果熵限制的强化学习

提出一种基于最大因果熵的方法来学习环境约束下的最优策略，该方法利用在约束下运作的代理的演示进行学习，证明了其在表格设置中的收敛性并提供了一个可扩展到复杂环境的近似值。通过评估奖励和约束违规数，评估学习策略的有效性，并基于其在其他代理中的可转移性评估学习成本函数。此方法已经在各种任务和环境中表现优于现有技术，能够处理具有随机动态和连续状态动作空间的问题。

May, 2023

神经网络的种群式训练

本文提出了 Population Based Training 算法，该算法通过优化神经网络模型和超参数的选择，以最大化模型性能，并自动发现超参数的调整进度表以及模型选择。该算法在深度强化学习领域得到了成功的应用。

Nov, 2017

MEPG：深度强化学习的极简集成策略梯度框架

本文提出了一种新的深度强化学习框架 MEPG，它利用修改的 dropout 操作符将多个模型集成成单一模型来解决集成学习中的资源消耗问题，MEPG 通过保持 Bellman 方程两侧的 dropout 一致性来保持集成属性，实验结果表明 MEPG 方法在 gym 仿真器上的表现优于最先进的集成方法和无模型方法，且不会增加额外的计算资源成本。

Sep, 2021

假设人类有偏见，学习与人类的零射合作

本研究针对多智能体强化学习在与人合作零 - shot 学习过程中的十分关键的限制，并提出了一种更通用的 Hidden-Utility Self-Play (HSP) 方法，该方法显式地模拟人类的偏好作为自我博弈的隐藏奖励函数。通过评估 Overcooked benchmark，HSP 方法成功获得了更高的协同收益，并被受试者评选为最有帮助的策略。

Feb, 2023

基于人群的组合优化强化学习

通过引入基于 Population 的强化学习思想，由于其在最大化性能时尚未预定义特定的多样性，证明了该方法产生一组互补的策略，并在三个著名的 NP-hard 问题上获得最新的强化学习结果：旅行推销员问题 (TSP)，分配式车辆路径规划问题 (CVRP) 和 01 背包问题 (KP)。在特定的 TSP 问题上，其超过先前的最先进技术，将最优性差距分为 5 个，同时缩短了推理时间超过一个数量级。

Oct, 2022

最大熵模型推出：快速基于模型的策略优化，无需累计误差

本文提出一种最大熵模型回滚算法以解决深度神经网络动力学模型在长期预测时的累积误差问题。作者通过非均匀采样环境状态生成多样性模型回滚，并使用优先经验重放来完成最大熵采样标准。初步实验表明，该算法在效率和性能上都优于其他模型预测算法。

Jun, 2020