AAAIDec, 2021

科学发现与测量成本 -- 在强化学习中平衡信息和成本

TL;DR本论文提出了一种框架,可使深度强化学习算法在科学应用方面实现选择行动和决定是否在每个时间步长测量系统当前状态的策略,以平衡获取信息和信息成本。结果表明,当在此模式下训练时,Dueling DQN 和 PPO 代理可以学习到最优行动策略,同时进行的状态测量可以降低 50%,而递归神经网络可以使测量降低 50%以上。