BriefGPT.xyz
Jun, 2019
指导策略优化的行为评分学习
Wasserstein Reinforcement Learning
HTML
PDF
Aldo Pacchiano, Jack Parker-Holder, Yunhao Tang, Anna Choromanska, Krzysztof Choromanski...
TL;DR
通过使用Wasserstein距离在新定义的潜在行为空间中比较强化学习策略,我们引入了一种新方法,展示了通过使用Wasserstein距离的二元制定,可以学习策略行为的得分函数,用于引导/远离所需/不需要的行为,并将正则化项加入两个新的策略训练算法中。在一系列具有挑战性的环境中展示了比现有方法更好的表现。同时我们提供开源演示。
Abstract
We propose behavior-driven optimization via
wasserstein distances
(WDs) to improve several classes of state-of-the-art
reinforcement learning
(RL) algorithms. We show that WD regularizers acting on appropriate po
→