Apr, 2023

动态动作空间强化学习中的行动捕捉

TL;DR提出了一种智能的 Action Pick-up 算法,用于从新的和未知的动作中自主选择最有可能提高性能的有价值的动作,它利用之前的最优策略提供有用的知识和经验,具有比基线更优的学习效率。