- 基于极值理论的大灾风险感知强化学习
在顺序决策过程中,解决减轻灾难性风险的问题,通过基于极值理论的尾风险近似导出的一种政策梯度算法 (POTPG),在金融风险管理中的动态对冲金融期权中得到了良好的实验表现。
- ClothPPO:一个增强机器人布料操纵的近端策略优化框架,使用与观测对齐的动作空间
本文介绍了基于视觉的机器人布料展开的研究,引入了一个基于策略梯度算法和演员 - 评论家架构的框架 ClothPPO,通过优化和更新策略,提高了软体操作任务下布料展开的表现。实验结果表明,我们的方法可以进一步改善其他最先进方法的展开性能。
- 通过原始 - 对偶策略梯度算法学习无限时域平均奖励受限马尔可夫决策过程的通用参数化策略
本文研究了无限时段平均回报约束马尔可夫决策过程(CMDP)。在我们的知识范围内,该工作是第一个深入探讨了具有一般策略参数化的平均回报 CMDP 的遗憾和约束违反分析。为了解决这个挑战,我们提出了一种基于原始对偶的策略梯度算法,能够在确保低遗 - 控制联邦学习的隐蔽性
通过利用随机性,本文研究了在学习者通过查询具有噪声的梯度评估的分布式 Oracle 的同时,向恶意窃听者隐藏 min (f) 的问题,将控制随机梯度算法用于隐蔽优化建模为马尔可夫决策过程,并证明动态规划算子具有超模结构,推导出最优策略具有单 - 风险厌恶策略梯度的一种替代方案:基尼偏差
采用 Gini 偏差作为替代风险度量的政策梯度算法,可以缓解方差风险度量的局限性,并在风险规避领域取得高回报、低风险的可靠策略。
- 非矩形不确定性集合的鲁棒 MDP 策略梯度算法
本研究提出了一种策略梯度算法,解决了鲁棒无限期马尔可夫决策过程中的非矩形不确定性集的问题,为相关领域的研究提供了可行性。
- 使用双时间尺度策略梯度算法的基于分位数的深度强化学习
在强化学习中考虑累积奖励分位数优化的问题,使用神经网络参数化策略,提出了 Quantile-Based Policy Optimization(QPO)和 Quantile-Based Proximal Policy Optimizatio - 使用分解增强的 MDP 多智能体学习双曲偏微分方程数值方法
本文将学习数值方法转化为了分解的 Dec-MDP 问题,展示了不同的奖励公式导致强化学习或行为克隆。RL 算法实现了一个同质化策略,使得多个智能体之间可以相互合作完成任务,并推广到不同的 PDEs 数值求解问题。
- AAAI多环境下的无监督强化学习
本文提出了一种针对多个环境的无监督强化学习方法,即先通过多个环境的交互数据对策略进行预训练,然后在任意环境下对其进行微调;提出了一种探索策略探索环境中的关键状态;最终通过实验证明了该方法相较从头开始学习的方法明显优势。
- ICML非平稳 MDPs 中的未来优化
本文介绍了一种名为 Prognosticator 的策略梯度算法,这种算法通过对政策性能的预测来主动搜索一个好的未来策略,并且通过将过去数据进行非均匀重新赋权,使该算法比其他两种在线适应技术更具鲁棒性。
- 通过强化学习学习时态点过程
这篇论文提出了一种基于增强学习方法的灵活时空点过程模型的算法,该算法可以生成满足真实数据分布的样本来评估模型质量,并采用逐步改进的策略参数化模型。模拟结果表明其在合成和真实数据中均表现良好。
- ICMLSafe Option-Critic: 在 Option-Critic 架构中学习安全性
本文提出了一种优化目标,通过鼓励智能体访问行为一致性较高的状态来学习安全选项,从而在标准期望回报和最小化回报的模型不确定性之间找到了平衡,并借助策略梯度算法优化了受约束的目标函数。在实验中,该方法取得了较好的表现,降低了回报的方差,并在奖励 - 电子商务搜索引擎中的强化学习排序:形式化、分析和应用
本论文提出使用强化学习等算法解决电子商务平台中的多步排名问题,并通过模拟和淘宝搜索引擎实验,与在线学习到排名方法相比,获得了高于 40%和 30%的总交易金额增长。
- 用强化学习解决车辆路径规划问题
本文提出了一个端到端的框架,使用强化学习来解决车辆路径问题 (VRP),我们训练一个单一的模型,仅通过观察奖励信号和遵守可行性规则,就可以找到给定分布采样的问题实例的近最优解。通过将策略梯度算法应用于优化其参数,我们的模型在实时中以连续操作 - ICLR神经网络中的条件计算以加速模型
本研究利用强化学习作为优化条件计算策略的工具,通过使用策略梯度算法,以求得在计算速度上做到简约化激活且保持预测准确性的最优策略,并提出了鼓励样本多样化的正则化机制以实现机器学习模型在计算速度上的加速。