- 纤维采样问题的演员 - 评论算法
我们提出了一个用于代数统计和离散优化方面复杂问题的演员 - 评论算法,在高维多面体定义的有限非负整数点格子的一个子集中生成样本。我们将问题转化为马尔可夫决策过程,并设计了一种演员 - 评论增强学习算法,以学习一组可以用于采样的良好移动。我们 - ICML有限时间收敛和演员 - 评论家多目标强化学习的样本复杂度
该研究论文介绍了一种创新的演员 - 评论家算法 MOAC,用于解决多目标强化学习问题,并提供了有限时间帕累托平稳收敛和样本复杂度的分析,通过在冲突的奖励信号之间进行权衡来找到策略,解决了应用中普遍存在的多个潜在冲突目标的问题,并通过实验证实 - 用于有约束多任务强化学习的自然策略梯度和演员评论家方法
多任务强化学习研究了多个任务同时有效解决的单一策略的约束形式,在中心化和去中心化设置下分别考虑了服务器和代理之间的全局约束问题,并提出了基于原始 - 对偶算法和基于采样的演员 - 评论家算法来解决这一问题,并研究了线性函数逼近的泛化扩展。
- 网络聚合马尔可夫博弈中的风险敏感多智能体强化学习
使用累积概率理论(CPT)的分布式采样型 actor-critic(AC)算法为网络聚合式马尔科夫博弈(NAMG)引入风险敏感性,实现主观感知的马尔科夫最优纳什均衡。实验结果表明,通过我们的算法获得的主观的 CPT 策略可能与风险中性策略不 - 在约束场景中学习非我观察的功率分配
我们提出了一个基于学习的框架,用于在瞬时约束下在自组干扰网络中进行高效能量分配。我们将最优能量分配与瞬时约束相结合,通过使用演员 - 评论家算法在每个步骤获得满足约束的能量分配,并通过实验分析证明了该方法的有效性和效率。
- 使用矩阵神经网络的均场控制的演员评价学习算法
我们开发了一种新的策略梯度和演员 - 评论家算法,用于解决在连续时间强化学习设置中的平均场控制问题。我们的方法利用了值函数的梯度表示,采用参数化的随机策略。演员(策略)和评论家(值函数)的学习通过在概率测度的 Wasserstein 空间上 - PACE:基于演员 - 评论家编辑技术改进大型语言模型的提示
通过自动提示编辑技术(PACE),将大型语言模型(LLMs)自动优化为特定任务的更好提示,提高了中低质量的人工编写提示的性能,并具有与高质量提示相当的性能.
- SARC:软性演员回顾评论家
本文提出了软演员回溯评论家(SARC)算法,通过增加回溯损失项来改进 SAC 的评论家学习,从而提高政策梯度估计和实现更好的策略,在基准环境中展示了 SARC 对 SAC 的持续改进表现。
- 关于自然演员 - 评论家算法与双层神经网络参数化的全局收敛
本文探讨利用神经网络代表评论家的自然演员评论算法的研究,并建议了一种涉及通过凸优化问题估计每个迭代中的 Q 函数的 2 层评论家参数化的自然演员评论算法,证明了我们提出的方法达到了样本复杂度的~O (1 / (ε^4 (1-γ)^4)),适 - 使用物理信息神经网络的演员 - 评论家方法:控制流体冷却电池组的 1D PDE 模型
本文提出了一种基于演员 - 评论家算法的控制电池组温度的方法,使用冷却流体模型对其进行建模,并使用物理知识神经网络解决了 HJB 方程,通过最优化方式实现对控制问题的最优控制
- 离线强化学习中的保守状态值估计
本文提出了一种名为 CSVE 的保守状态价值估计方法,利用惩罚来学习保守的 V 函数,应用于实际的演员 - 评论家算法中,具有更有效的数据策略优化和保守价值保证。在 D4RL 的经典连续控制任务中,我们的方法表现比保守 Q 函数学习方法更好 - DeepTOP: MDP 和 RMAB 的深度阈值最优策略
本研究探讨了阈值策略在控制问题中的最优策略学习,发现其单调性质使得其策略梯度具有简单表达式,进而构建了一种基于离线策略评估方法的最优阈值策略学习算法,并应用于多臂老虎机问题中的 Whittle index 的学习。仿真结果表明,该算法学习速 - AAAI在线决策的强鲁棒性测试
通过修改演员 - 评论家算法并推导一种新的测试过程,提出了一种对评论家错误规范化具有鲁棒性的修改型演员评论家算法,在移动医疗等领域能够根据用户数据制定个性化健康干预措施,并能协调数据收集和影响 app 性能之间的平衡。
- CVPR基于一致性约束的序列 Transformer 关注模型在部分可观测场景中的应用
本文提出序列转换器关注模型(STAM),以在资源有限的情况下,部分观察完整图像并仅基于过去的瞥见预测信息突出位置。使用 DeiT-distilled 设计代理并使用一步演员 - 评论家算法进行培训。此外,为了提高分类性能,还介绍了一种新的培 - 3DPG: 网络化多智能体系统的分布式深度确定性策略梯度算法
本论文提出了一种基于分布式深度学习的多智能体 Actor-Critic 学习算法,应用于 Markov 博弈,能够在训练和部署中实现完全分布式,具有一定的实用价值。
- AAAI通过状态保守策略优化学习对抗转移动态的稳健策略
本研究提出了一种名为 SCPO 的新型无模型的策略算法,通过近似减少状态空间内的扰动来解决源环境和目标环境之间差异性的问题,以使深度强化学习算法在真实环境中更加具有鲁棒性。
- 可行的演员 - 评论家算法:基于约束强化学习实现状态安全性保障
本文提出了可行行动者 - 评论家 (FAC) 算法,是第一个考虑到每个初始状态的状态安全性的无模型约束 RL 方法,通过构造基于 RL 采样的状态 Lagrange 函数并采用附加神经网络逼近状态 Lagrange 乘数,我们可以获得确保每 - ICML基于伪度量学习的离线强化学习
本研究提出了一种离线强化学习方法,其中使用迭代过程学习伪度量(与双仿度量密切相关),并将其用于定义与记录转换接近的状态操作对,同时利用此伪度量定义了一个基于查找的奖励,以帮助 actor-critic 算法在手动操作和运动任务中学习。
- ICML双重稳健离线演员 - 评论家算法:收敛和最优性
本文提出了一种新的基于 actor-critic 算法的离策略强化学习算法 DR-Off-PAC,通过利用已学习的干扰函数来降低估计误差并减少采样复杂度,同时采用单时间尺度结构,可以更加高效地实现一次更新。其中采用密度比方法来调整分布不匹配 - 深度强化学习中目标网络的 t-Soft 更新
本文提出了一种新的强化学习(DRL)目标网络的鲁棒更新规则,以替代传统的指数移动平均更新规则,并通过类比于指数移动平均和正态分布之间的关系,基于学生 t 分布衍生了一种 t-soft 更新方法。通过 PyBullet 机器人模拟 DRL 的