Jun, 2023

连续随机动力学学习环境模型

TL;DR通过深度强化学习、自动化学习和马尔可夫决策过程等技术,学习出由自主智能体控制的环境模型,以解决复杂环境下的控制问题,并在多个强化学习基准环境中验证了方法的有效性。