BriefGPT.xyz
Ask
alpha
关键词
healthcare task
搜索结果 - 1
多样性导向的策略梯度:利用最大平均差异找到一组不同的策略
本文使用基于梯度的优化技术,旨在找到不同行为的多样化的性能良好的策略集,在强化学习方法中,鉴别近似最优策略集的重要性被正式化和研究,并在基准测试和医疗保健任务中展示了应用效果。
PDF
5 years ago
Prev
Next