- 风险厌恶 POMDP 的简化与绩效保证
在部分可观察域中,面临不确定性的风险规避决策是人工智能领域的一个基本问题,对于可靠的自主代理至关重要。本研究使用部分可观察的马尔可夫决策过程(POMDPs)建模并采用回报的条件风险价值(CVaR)作为值函数。这项工作开发了一个简化框架,以加 - 简化混合策略参数化的 CVaR 优化样本效率改进
使用混合策略参数化的方法解决了利用策略梯度来优化 CVaR 时的样本效率问题,实证研究表明该方法在各个基准领域中非常有效。
- TRC:用于安全强化学习的信任区域条件风险价值
提出了一种以条件风险为约束的信赖区域安全强化学习方法(TRC),通过近似上界和使用次问题训练策略,实现在安全约束下达到更优性能的有效导航任务。
- 使用条件风险价值和可微凸规划的 Wasserstein 分布鲁棒控制屏障函数
提出了一种分布鲁棒 CBF(DR-CBF)方法,通过使用 Wasserstein 度量来测量分布偏移,实现了目标函数的三层规划,并应用不同 iable 凸规划技术来确保条件风险值的前不变性,为了验证分布偏移下的机遇约束安全保证在一阶和二阶系 - 风险优化的异常值去除用于鲁棒点云分类
通过引入 PointCVaR 方法,该研究论文通过消除异常点并恢复数据,提升了点云分类的准确性,使其成为不同场景中各种模型的有希望的插件模块。
- Forward-PECVaR 算法:CVaR SSPs 的精确评估
本文提出了一种新的算法 Forward-PECVaR,用于确切评估具有非均匀成本的 CVaR-SSPs 的稳态策略,并通过实证评估 CVaR Value Iteration 算法的质量以及算法参数对解决方案的质量和可伸缩性的影响。
- ICLRRMIX:合作强化学习代理的风险敏感策略学习
本研究提出了一种名为 RMIX 的协作多智能体强化学习算法,使用条件风险价值(CVaR)测量个体 Q 值的学习分布,优化 CVaR 策略,并通过分位回归损失将 CVaR 值用作辅助本地奖励更新本地分布,提高了 StarCraft II 任务 - ICML支持感知 CVaR 赌博机的最优汤普森抽样策略
本文研究一种多臂赌博机问题,其中每个臂的质量是在奖励分布的某个水平 alpha 上通过条件风险价值(CVaR)来测量。我们引入了一种新的 CVaR 赌博机定理的 Thompson Sampling 方法,尤其适用于基于物理资源的问题。我们在 - 类别加权分类:权衡和健壮方法
本研究提出了一种针对不平衡分类问题的解决方案,使用加权损失按照正确分类对错误分类的影响程度进行损失估计,进而提出了鲁棒风险的概念,得出了特殊情况下的条件价值风险的鲁棒风险解法,同时这种解法可用于改善类条件风险。
- 用 Sigmoid 函数近似处理概率约束非线性规划问题
该研究提出了一种称为 SigVaR 的价值风险的 S 型逼近方法,可以用来处理带有机会约束的非线性规划,相对于最近文献中报告的其他平滑 S 型逼近方法,其关键好处是可以建立与条件风险价值逼近的明确联系,并利用这种联系来获得逼近参数的初始猜测 - 保守乐观:快速学习 CVaR 策略
以 Markov 决策过程为基础,采用面对不确定性的乐观主义原则,使用一种乐观主义的分布 Bellman 算子,将回报分布的概率质量从下尾部移动到上尾部,从而快速学习具有良好 CVaR 的策略。该算法可以在多种模拟环境中更快地找到 CVaR - 通过条件风险价值优化学习健壮的选项
本文提出了一种基于条件风险价值方法的学习选项的方法,旨在处理具有不确定性的模型参数,以实现在平均和最坏情况下都能良好运作的选项,通过实验评估表明该方法在多关节机器人控制任务中获得了较好的表现。
- eMBB-URLLC 资源切片:一种风险敏感的方法
使用风险敏感度和马尔可夫不等式,将资源分配给严格低延迟通信(URLLC)的新射频应用,同时保护当前增强型移动宽带用户的数据速率,从而有效地分配资源并满足 URLLC 和 eMBB 的可靠性。
- 量子风险分析
我们提出了一种比传统的经典蒙特卡罗模拟更高效地分析风险的量子算法,利用基于门的量子计算机上的量子振幅估计来评估风险测度,并展示了如何实现该算法以及如何折衷算法和电路深度的收敛速度。
- 探索与开发与安全:风险厌恶的多臂老虎机
本文介绍了多臂风险感知算法(MARAB),用于能源管理,旨在通过限制高风险风险臂的探索来提高效率。通过使用条件风险价值作为臂质量,当用户提供的风险水平趋近于零时,MARAB 倾向于最小化多臂赌博机算法(MIN),以最大化最小值。实验表明,与