Dec, 2018

强化学习中的探索与利用:一种随机控制方法

TL;DR研究探讨了在连续时间内通过采用熵正则化奖励函数促进探索和利用现有知识之间达到的最佳折衷方案,提出使用行为分布的微分熵来规范化奖励函数的熵正则化,并通过高斯分布表征推导出最佳反馈控制分布来平衡利用和探索性搜索,最后通过熵正则化 LQ 问题的解法证明当探索比重衰减至零时,解法能够收敛于经典 LQ 问题的解。