科学发现与测量成本 -- 在强化学习中平衡信息和成本

AAAIDec, 2021

科学发现与测量成本 -- 在强化学习中平衡信息和成本

Scientific Discovery and the Cost of Measurement -- Balancing Information and Cost in Reinforcement Learning

Colin Bellinger, Andriy Drozdyuk, Mark Crowley, Isaac Tamblyn

TL;DR本论文提出了一种框架，可使深度强化学习算法在科学应用方面实现选择行动和决定是否在每个时间步长测量系统当前状态的策略，以平衡获取信息和信息成本。结果表明，当在此模式下训练时，Dueling DQN 和 PPO 代理可以学习到最优行动策略，同时进行的状态测量可以降低 50％，而递归神经网络可以使测量降低 50％以上。

Abstract

The use of reinforcement learning (RL) in scientific applications, such as materials design and automated chemistry, is increasing. A major challenge, however, lies in fact that measuring the state of the system

reinforcement learning scientific applications measurement costs policy learning deep rl algorithms

发现论文，激发创造

为了最小化观测成本的主动测量强化学习

本研究提出了一种名为活跃测量 RL（Amrl）的框架，其中代理学习最大化加权回报，以平衡奖励和观察成本。我们的实证评估表明，Amrl-Q 代理能够在在线训练期间并行学习策略和状态估计器。通过使用主动策略，Amrl-Q 实现了更高的加权回报，而且学习速度与标准 Q-learning 和 Dyna-Q 相似。

May, 2020

观测代价敏感强化学习中的动态观测策略

本文调查了最近发展的文献，采用了 RL 代理不需要每个时间步都进行昂贵测量的观点，并在 OpenAI gym 和 Atari Pong 环境上与文献中的替代方法进行对比和实证评估，结果表明 DMSOA 在较少的决策步骤和测量下学习到了更好的策略。

Jul, 2023

CostNet: 目标导向强化学习的端到端框架

本文引入一种新的强化学习算法，通过学习马尔可夫决策过程中两个状态之间的距离来预测，距离度量作为内在奖励被用于推动智能体的学习。实验结果表明，相比于模型无关的强化学习，该算法在多个测试环境中具有更好的样本效率。

Oct, 2022

基于模型的强化学习的实验设计视角

本文提出利用贝叶斯最优实验设计思想指导选择状态 - 动作对查询以达到高效学习的方法，即提出一种衡量一个状态 - 动作对对马尔可夫决策过程的最优解提供多少信息的获取函数，在每次迭代中，我们的算法最大化这个获取函数，选择提供最多信息的状态 - 动作对被查询，从而获得高效的数据驱动强化学习方法；在多个连续控制问题上实验，相比于基于模型或无模型的 RL 基线方法，本文方法学习出的最优策略所需样本量减少了 5-1000 倍。

Dec, 2021

处理成本和约束的离策略深度强化学习

混合符号奖励环境中，重新考虑原有策略更新方法的安全性，通过解决数值估计误差的问题和不显式地最大化 Q 值的方法，提出了新的离策略演员 - 评论家方法，以提高深度强化学习算法在连续动作空间中的学习效果。

Nov, 2023

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

使用深度强化学习的事件预测动态测量调度

通过深度强化学习策略，将测量成本降至最低，同时最大化预测收益，实现基于病人健康历史动态调整的医学测量任务调度，有效地降低了测量次数并提高了预测准确性。

Jan, 2019

了解过去预测未来：强化虚拟学习

本篇论文提出了基于预测模型，使用历史数据构建的虚拟空间的强化学习模型，能够平衡长期和短期奖励，并使模型与真实环境交互以实现学习策略的最终收敛。在 Fed-Batch 过程的实验设置下，我们的方法始终优于现有技术水平。

Nov, 2022

On-Policy 强化学习中的重要因素：一个大规模实证研究

通过一个统一的基于策略的强化学习框架，在五种不同复杂度的连续控制环境中训练了超过 250000 个智能体，对强化学习的实现决策进行了大规模的实证研究，并提供了针对基于策略的训练推荐和技巧。

Jun, 2020

量子强化学习

本文提出了一种新颖的量子强化学习算法，通过将量子理论和强化学习相结合，引入了价值更新算法框架，通过概率幅度并行更新以达到在探索和利用之间取得良好平衡，并加速学习。经实验验证，该方法在一些复杂问题中表现出优越性和实用性，是量子计算在人工智能应用方面的有效探索。

Oct, 2008