协处理器演员评论家：一种面向模型的自适应脑刺激的强化学习方法

ICMLJun, 2024

协处理器演员评论家：一种面向模型的自适应脑刺激的强化学习方法

Coprocessor Actor Critic: A Model-Based Reinforcement Learning Approach For Adaptive Brain Stimulation

Michelle Pan, Mariah Schrum, Vivek Myers, Erdem Bıyık, Anca Dragan

TL;DR通过模型，我们提出了一种新颖的基于模型的强化学习方法，即 Coprocessor 角色扮演者批评家，用于学习神经协处理器策略以进行脑刺激，克服了传统的无模型强化学习方法在样本效率和任务成功方面的局限性，并在一个神经学现实模型中胜过基线的基于模型的强化学习方法。

Abstract

adaptive brain stimulation can treat neurological conditions such as Parkinson's disease and post-stroke motor deficits by influencing abnormal neural activity. Because of patient heterogeneity, each patient requ

adaptive brain stimulation neurological conditions model-free reinforcement learning model-based reinforcement learning coprocessor actor critic

发现论文，激发创造

基于模型的前瞻性强化学习

本论文结合模型推理控制与模型无关的深度强化学习方法，提出一种更加高效的学习框架，并在标准的连续控制基准任务中取得了与模型无关方法相当的性能表现。

Aug, 2019

神经协处理器用于恢复脑功能：抓取的皮层模型结果

使用神经协处理器，应用深度学习和人工神经网络为针对性修复和康复进行闭环神经电刺激，通过监督学习获取合适的刺激方案并自适应调整以适应不断变化的脑部活动，建立了康复治疗的首个适应性、基于活动的闭环神经电刺激的设计思路。

Oct, 2022

深度强化学习下的模型预测行动者 - 评论家算法：加速机器人技能获取

介绍了一种基于模型预测控制的混合模型学习和无模型学习方法，名为 MoPAC，通过探索 / 利用以减轻模型偏差，可以实现真实机器人的训练。该方法使用优化轨迹指导策略学习，并且在需要时进行探索。通过实验，MoPAC 方法优于当前最先进的方法，适用于真实机器人的训练，同时为物体夹取、操作和重新夹取等复杂任务提供了一种优化技能学习的解决方案。

Mar, 2021

接触丰富可微分模拟中的政策学习自适应视野演员评论家

探讨了模型自由强化学习方法的优化问题，引入了一种基于模型的算法 (AHAC)，通过适应模型的 horizon 避免 stiff dynamics，实验结果表明 AHAC 在特定任务中表现优于传统方法，具有更好的时间效率。

May, 2024

使用脑启发的调制强化学习可以提高对环境变化的适应能力

研究提出了一种新的神经元学习规则，它使用突触前输入来调制预测误差，将其嵌入表格和深度 Q 网络强化学习算法中，可以在简单而高动态的任务中胜过传统算法，这提出了一种新的生物智能核心原则。

May, 2022

MFRL-BI：一种基于贝叶斯推断的无模型强化学习过程控制方案设计

利用模型无关的强化学习方法，通过实时数据进行实验和优化控制，提出了一种新的 MFRL 控制方案，通过贝叶斯推断更新干扰分布，来降低制造过程中的大幅波动，同时在未知的非线性化学机械化学抛光（CMP）过程中表现出良好的性能，并在干扰为加性的情况下保证了理论性质，数值研究也证明了我们方法的有效性和效率。

Sep, 2023

具有预测处理相邻策略优化的高效深度强化学习

人类的大脑通过预测性处理的方式，以较小的资源实现了有效的控制策略，该研究利用预测性处理理论，建立了一个可以预测自身感观状态的循环神经网络模型在强化学习中的应用，并证明该模型在多个游戏中的表现，优于同等时间内的其他同类模型以及人类玩家。

Nov, 2022

在摩擦任务中对有限理性人类代理采取强化学习干预

引入行为模型强化学习 (BMRL) 框架，利用人类决策者的智能规划特性，通过个性化干预实现对摩擦性任务中基本行为的理解和对复杂行为的规划。

Jan, 2024

强化学习增强的对比模型用于顺序推荐

通过提出一种名为模型增强对比强化学习（MCRL）的新型强化学习推荐器，我们解决了离线数据集的稀疏性以及负反馈无法获取的问题，并通过对比学习来优化奖励函数和状态转移函数，实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。

Oct, 2023

基于因果提示的基于模型的离线强化学习

基于模型的离线强化学习可以在不需要额外或不道德的探索的情况下充分利用预先收集到的数据集。然而，将基于模型的离线强化学习应用于在线系统面临挑战，主要是由于在线系统生成的数据集高度次优（充满噪声）和多样化的特点。为了解决这些问题，我们引入了适用于高度次优和资源受限的在线场景的因果激发强化学习（CPRL）框架。CPRL 的初始阶段涉及到引入隐藏参数块因果激发动态（Hip-BCPD）来建模环境动态。该方法利用不变因果激发并对齐隐藏参数以推广到新的多样化的在线用户。在随后的阶段，通过可重用技能的融合来训练单一策略以应对多个任务，从而避免了从头开始训练的需要。在具有不同噪声水平的数据集上进行的实验证明了我们所提出的方法在分布外和嘈杂环境中可以做出稳健的决策并优于现有的算法。此外，我们还分别验证了 Hip-BCPD 和技能重用策略对性能稳健性的贡献，并对 Hip-BCPD 的可视化结构和子技能的可解释性进行了进一步分析。我们发布了我们的源代码和第一个用于精确医疗决策任务的真实世界医疗数据集。

Jun, 2024