Jul, 2023

观测代价敏感强化学习中的动态观测策略

TL;DR本文调查了最近发展的文献,采用了RL代理不需要每个时间步都进行昂贵测量的观点,并在OpenAI gym和Atari Pong环境上与文献中的替代方法进行对比和实证评估,结果表明DMSOA在较少的决策步骤和测量下学习到了更好的策略。