关键词population-based training
搜索结果 - 10
- 强化学习中的超参数优化的泛化基于人口的训练
通过引入更灵活、更具体的超参数适应框架 Generalized Population-Based Training 和综合性的 Pairwise Learning 策略,我们的方法在自适应性和计算效率方面显著优于传统的 Population - 基于种群的强化学习的相位多样性优化
多样性强化学习中的多样性优化算法中,通过引入一种称为 Phasic Diversity Optimization (PDO) 的基于群体训练的框架,将奖励和多样性分别训练,并在敌对空战和 MuJoCo 仿真中的实验表明,其性能优于基线算法。
- 大规模多任务和多域学习中的标量化
通过多领域和多任务学习的大规模统一分析,深入了解标量化在各种任务和领域组合以及模型规模中的动态,然后借助基于群体的训练来有效地搜索处理大量任务或领域时的最优标量化权重。
- 基于种群的进化博弈在无监督人员再识别中的应用
本文提出了一种基于人口统计学的进化博弈(PEG)的,来进行无人监督的人员再识别,其利用了协同游戏、克隆和波动超参数、知识蒸馏等多种技术来增加网络多样性,从而打破了单一网络面对无人监督条件学习判别信息的局限性,同时利用了交叉散射(CRS)来评 - Google 研究足球多智能体场景的实证研究
本文提供了一个基于群体的多智能体增强学习 (MARL) 训练流程和超参数设置,用于提高 11v11 场景下的足球 AI 性能,这是一个新的开放基准,在 200 万步内从零开始击败了难度为 1.0 的机器人,并介绍了 Independent - 基于人群的组合优化强化学习
通过引入基于 Population 的强化学习思想,由于其在最大化性能时尚未预定义特定的多样性,证明了该方法产生一组互补的策略,并在三个著名的 NP-hard 问题上获得最新的强化学习结果:旅行推销员问题 (TSP),分配式车辆路径规划问题 - 神经网络中的周期性外推归纳
研究不同类型结构神经网络在周期性数据外推泛化问题上的表现,结果发现传统序贯模型在该任务上仍然表现优于新型周期网络和蛇形激活函数,而基于人口的训练方法最终达到了最佳效果。
- 贝叶斯生成式基于种群的训练
本文介绍了一种自动化强化学习算法 —— 基于种群训练的方法,并提出了使用基于贝叶斯优化的信任域方法和使用代际方法在单次训练中联合学习架构和超参数的创新解决方案,通过在高度并行的 Brax 物理引擎中验证得到了良好的性能。
- 单机快速基于种群的强化学习
通过编译和矢量化的技术,我们验证了集群训练可以在单台机器上进行,同时大于单个智能体训练,以及它可以被用于超参数调整。
- 学习关于人类的知识对于人工智能协作的效用
研究表明,当自主算法如自我博弈和基于群体的训练算法用于训练智能体时,智能体往往只能与自己合作,而不能与人类合作。本文在一个类似于烹饪过程的环境中设计了几个智能体,以展示他们在与人类协作方面的表现,并探讨了更好协作的设计方法。