Feb, 2025

寻求帮助实现安全保障而不牺牲有效性

TL;DR本研究解决了现有强化学习算法在面对不可逆错误时缺乏奖励最大化的问题。提出了一种新方法,证明在特定情境下,避免灾难的算法不仅可以保障安全,还能确保高回报。这项研究首次为一般马尔可夫决策过程提供了无悔保证,表明在不确定和高风险的环境中,智能体能够在获得高回报的同时实现自给自足。