Aug, 2023

通过近端策略优化和蒙特卡罗树搜索实现机动决策

TL;DR基于邻近策略优化和蒙特卡洛树搜索的方法,用于解决机动决策问题,通过使用邻近策略优化训练智能体,并使用价值网络作为训练目标,以及基于价值网络和每个节点的访问次数,使用蒙特卡洛树搜索找到比随机动作更有预期回报的动作,提高训练性能,实验验证了所提方法的有效性和可行性。