- 非平稳分布下的风险规避学习
本文研究在线优化中的非稳态环境,以便决策者能够适应变化并提高性能。我们采用最小化风险敏感目标函数的策略,使用条件风险价值 (CVaR) 作为风险度量,并使用零阶优化方法来估计 CVaR 梯度。理论结果表明,我们设计的学习算法在凸和强凸函数上 - 批量贝叶斯优化用于可重复的实验设计
研究提出了 Batch Thompson Sampling for Replicable Experimental Design (BTS-RED) 框架,包含三个算法,用于解决实验设计中的多个条件同时评估和重复观测噪声大而异方差的问题。三 - 面向分布式鲁棒安全强化学习的风险规避模型不确定性
我们提出了一个采用深度强化学习的框架,通过相干畸变风险度量考虑模型不确定性的风险规避观点,并表明我们的公式等价于具有性能和安全保障的分布鲁棒安全强化学习问题,并展示了我们框架在 Real-World 强化学习套件中各种具有安全约束的连续控制 - 风险感知自适应基于信念的概率约束连续 POMDP 规划
本研究针对部分可观察领域的连续 POMDP 问题,提出了一种新的风险厌恶且基于信念的概率限制解决方案,并给出了对应的算法。通过对信念相关的奖励和约束算子的处理,本文提出的方法在满足相同约束条件下,比现有技术更加风险厌恶、更加灵活。实验结果表 - SAAC: 基于扮演者 - 评论者对抗博弈的安全强化学习
本文提出了一种利用最大熵 RL 和安全性对抗指导的 SAAC 框架,能够有效解决在现实世界系统中,风险或安全性是一个约束的问题,同时它也能够满足不同的安全性标准。
- 折扣马尔可夫决策过程中均值 - 方差优化的统一算法框架
用假均值将混合风险下的 MDP 转化为标准 MDP,并提出一种基于二级优化结构的统一算法框架,该框架还允许收敛性分析。通过数值实验,验证了该算法的有效性。
- AAAI连续风险厌恶赌博机汤普森抽样的统一理论
本文提供了一种连续、优势风险函数 $
ho$ 的风险厌恶型 Thompson 抽样算法设计和分析方法,并证明了多项分布下基于连续优势风险函数的算法 $
ho$-MTS 的渐近最优遗憾界以及 Bernoulli 分布下基于经验分布性能度量的风 - 保守型离线分布式强化学习
提出了一种适用于风险中性和风险厌恶领域的离线强化学习算法 CODAC,通过对预测收益分位数的度量来适应分布式强化学习,证明 CODAC 学习一个保守收益分布,并在机器人导航任务上成功地学习了风险厌恶策略,表现优于 D4RL MuJoCo 基 - ICML策略梯度贝叶斯鲁棒优化在模仿学习中的应用
本论文提出一种名为 PG-BROIL 的新型策略梯度型鲁棒优化方法,用于优化平衡预期表现和风险的软鲁棒目标,并且可以在存在大量悬而未决的奖励函数的情况下实现刻画行为从无风险到会冒风险的策略优化,进而超越了最先进的仿真学习算法。
- 风险厌恶的离线强化学习
该研究论文提出了一个用于高风险应用中学习风险规避策略的模型 - Offline Risk-Averse Actor-Critic (O-RAAC),展示了在不同机器人控制任务中,该算法比风险中性方法具有更高的条件值 - at-Risk (C - 条件风险下的统计学习
研究一种基于条件风险价值(CVaR)的风险规避统计学习框架,提出了基于随机梯度下降的算法。对于凸和 Lipschitz 的损失函数,该算法收敛到最优 CVaR,而对于非凸和平滑的损失函数,该算法在 CVaR 上的泛化界表现良好。通过在各种机 - 当人类不是最佳选择:与风险意识人类合作的机器人
本文介绍了如何通过风险意识的人类行为模型来安全、高效地进行机器人技术和人类的协同作业过程,旨在预测和规划人类常常表现出的非最优行为。
- 风险厌恶稳健对抗强化学习
本文提出了一种风险规避的强化学习算法,通过引入风险规避主角和风险趋避对手的方式,使用价值函数方差来建模风险,避免极端不良事件的发生,该算法在自动驾驶控制器上的实验中证明具有较高的鲁棒性。
- 马尔可夫决策过程中多重平均回报目标的统一视角
本文研究具有多个极限平均(或均值支付)目标的马尔可夫决策过程,囊括了优化期望和满足约束的两种语义,并考虑到具有风险规避策略的优化问题。文章的主要结果包括:多项式时间的算法、多项式大小的 Pareto 曲线近似计算和策略复杂性的完整刻画。
- 随机组合优化问题的期望效用最大化
该研究考虑了一类随机组合优化问题,其中输入数据集中的元素权重不确定,并提出了一种基于预期效用的解决方案,以最大化某些给定实用函数的预期效益,并证明了在问题的精确版本下,可以针对几种重要的实用函数类得到多项式时间逼近算法。