动态治疗方案的惩罚式 Q 学习

Aug, 2011

Penalized Q-Learning for Dynamic Treatment Regimes

Rui Song, Weiwei Wang, Donglin Zeng, Michael R. Kosorok

TL;DR该论文提出一种基于惩罚的 Q 学习框架（PQ-learning）来解决治疗效应参数不规则性的统计推断问题，并提出了相应的个体选择方法来将这一框架应用于动态治疗决策制定中，结果证明其在计算和推论方面均具有优越性。该方法已经应用于抑郁症临床试验研究。

Abstract

A dynamic treatment regime effectively incorporates both accrued information and long-term effects of treatment from specially designed clinical trials. As these become more and more popular in conjunction with longitud

dynamic treatment regime longitudinal data statistical inference penalized q-learning individual selection

发现论文，激发创造

信息论模型预测 Q 学习

本研究提出了一种基于信息理论模型预测控制和熵正则化强化学习的 Q 学习算法，可以利用有偏模型，并在模拟控制任务中验证了该算法的有效性。

Dec, 2019

从赌徒模型到深度确定性策略梯度，具有情境信息的强化学习

在研究中，我们采用了两种方法来解决情境信息的问题：情境 Thompson 抽样和受监督的强化学习，这可以加速搜索最佳答案的迭代。为了研究量化市场中的战略交易，我们将之前的金融交易策略（常比例保险组合）与深度确定性策略梯度相结合。实验结果表明，两种方法都可以加速强化学习的进展，以获取最优解。

Oct, 2023

高效深度强化学习需要控制过拟合

本文通过对 DeepMind 控制套件中的任务进行控制和系统性分析，研究了数据高效 RL 的瓶颈，发现高 TD 错误是深度强化学习算法性能严重影响的主要罪魁祸首，因此，在任何形式的监督学习中，利用任何形式的正则化技术，找到验证 TD 误差的最低点是使深度 RL 高效的一个强有力的原则。一个简单的在线模型选择方法针对验证 TD 错误在基于状态的 DMC 和 Gym 任务中也是有效的。

Apr, 2023

马尔可夫决策过程中的时间规则化

本篇论文介绍了一种基于时间规则化的强化学习方法，利用马尔可夫链概念正式描述技术引入的偏差。在简单的离散和连续 MDP 中说明时间规则化的各种特性，并表明该技术即使在高维 Atari 游戏中也提供了改进。

Nov, 2018

深度强化学习用于自适应学习系统

本文提出了一种采用马尔可夫决策过程（MDP）的无模型强化学习算法 --- 深度 Q 学习算法来找到最优化的自适应学习策略，同时开发了一个转移模型估计器来优化数据利用，实验结果表明该算法在自适应学习领域有着较高的效率。

Apr, 2020

基于概率模型预测控制的高效数据强化学习

本文提出了基于概率模型预测控制（MPC）的基于模型的 RL 框架，以减少与环境的相互作用次数的方法。该方法使用高斯过程学习概率转换模型来减少模型误差的影响，同时使用 MPC 找到最小化预期长期成本的控制序列，以达到在受限环境下使用 RL 的目的。

Jun, 2017

非参数通用强化学习

本文提出了在非 Markovian、非 ergodic 且只部分可观察的环境下进行强化学习的问题。作者建立了贝叶斯强化学习代理的负面结果，并证明 Thompson 采样在随机环境中是渐进最优的。此外，作者构建了一个大但可计算的类，展示了基于 Thompson 采样的代理在这个类中收敛于任意未知可计算多智能体环境中的纳什均衡。

Nov, 2016

使用 KL 惩罚的强化学习更适合视为贝叶斯推断

本文旨在分析强化学习如何应用于微调大型语言模型，研究 KL-regularized 强化学习的表现和原理，并论证 RL 并非是微调语言模型的最佳框架，而语言模型的微调应该被看做贝叶斯推断的问题。

May, 2022

车辆轨迹控制的高效数据深度强化学习

采用数据高效的深度强化学习方法研究车辆轨迹控制，发现新的模型推理方法并将动力学预测和车辆定位分离，比传统方法更高效地学习控制策略。

Nov, 2023

强化学习与概率推断的理解

本研究因 RL 作为推理方法的短处而对其进行澄清，RL 代理人必须考虑其行动对未来奖励和观察结果的影响，即探索和开发之间的权衡。我们证明了‘RL 作为推理’近似在基本问题中表现不佳，但我们展示了通过小修正该框架可以获得可靠的算法，该算法与最近提出的 K-learning 等价，我们进一步将其与汤普森取样联系起来。

Jan, 2020