Sep, 2023

风险感知强化学习基于最优输运理论

TL;DR该论文以最优传输理论(OT)为基础,通过修改目标函数,提出了一种风险感知的强化学习框架,以确保决策的可靠性,并且在最大化预期回报的同时,尊重通过状态访问分布和期望风险配置之间的OT距离所规定的风险约束。通过利用OT的数学精度,论文提供了一种能够将风险考虑与传统强化学习目标相平衡的公式化方法,通过一系列定理来证明了风险分布、最优值函数和策略行为之间的关系。该研究通过OT的视角为强化学习提供了一个有前景的方向,确保奖励追求与风险意识的平衡融合。