Jan, 2014

探索与开发与安全:风险厌恶的多臂老虎机

TL;DR本文介绍了多臂风险感知算法(MARAB),用于能源管理,旨在通过限制高风险风险臂的探索来提高效率。通过使用条件风险价值作为臂质量,当用户提供的风险水平趋近于零时,MARAB 倾向于最小化多臂赌博机算法(MIN),以最大化最小值。实验表明,与其他算法相比,MARAB 和 MIN 算法更加稳健,可用于人工和现实世界的问题。