Jun, 2023

双策略作为规划自我模型

TL;DR本文研究了利用强化学习中的策略网络作为自模型来规划行动的决策方法,结果表明,相比于自由模型,这种方法训练更稳定,推理速度更快,探索性更好,能够得到一种全面的自我行为理解。