BriefGPT.xyz
大模型
Ask
alpha
关键词
neural policies
搜索结果 - 2
基于可微投影的能耗优化策略可行性约束实施
本文提出了一种名为 PROF 的方法,可以在神经网络策略中加入可微的投影层,以满足凸运营约束,进而对能源系统的控制进行 RL 训练。我们在两个应用上进行了演示,并展示了 PROF 的性能提升。
PDF
3 years ago
MM
多样性策略梯度用于高效样本质量多样化优化
本文提出了一种新算法 QDPG,它结合了策略梯度算法和质量多样性方法,用于在连续控制环境中生成多样化和高性能的神经控制器,并且比其他进化算法更具样本效率。
PDF
4 years ago
Prev
Next