使用重复赌博区分风险偏好
本文介绍了一种基于偏爱函数的风险感知的增强学习框架,在不确定的环境下可以通过调节风险偏好参数实现风险规避,风险中性或风险承受。同时,作者使用动态规划和策略梯度算法来衡量和控制认知风险,并将风险规避策略与认知风险环境下的最优风险中性策略进行了比较分析。
Jun, 2019
在实践中,决策者经常面临着不同的风险偏好和不确定性的情况,传统的风险中性强化学习框架无法很好地捕捉到这些情况。本文提出了一种利用泛化的效用函数来解决风险敏感的强化学习问题的方法,并设计了可实现的近似算法来求解该问题。
Nov, 2023
基于一种模型来代表在不确定性下代理人的观点和选择偏好的连贯关系集合,本文提供了关于连贯性所需的公理和给定一组理想赌注集合的自然扩展的一些结果,同时表明理想赌注的连贯集合可以由一组合理的滤波器来表示。
Apr, 2024
本文针对多智能体系统的一些强理性假设提出了一种基于受限风险感知的马尔可夫博弈(BRSMG)的正向策略设计和逆向奖励学习算法,并通过导航场景验证了算法表现优异,该算法可以恰当地建模人类行为。
Sep, 2020
该研究提出了一种风险敏感的强化学习框架,将效用函数应用于时间差分误差,实现非线性转换,将其应用于马尔可夫决策过程的转移概率和获得的奖励,并将其用于解释人类决策行为的特征,通过证明该模型的收敛性和在一个顺序投资任务中的实际应用,进一步验证了风险敏感强化学习框架的有效性。
Nov, 2013
我们研究了在一般和马尔可夫游戏中,多智能体强化学习中的风险敏感问题,其中智能体通过强化学习最大化奖励的熵风险衡量,并且可能具有不同的风险偏好。我们表明,使用现有文献中直接从后悔中获得的波动作为性能指标可能会导致存在偏差的策略,偏好最敏感风险的智能体并忽视其他智能体。为了解决这种直接后悔的不足,我们提出了一种新的后悔定义,称之为风险平衡后悔,并通过下界证明其克服了平衡偏差的问题。此外,我们开发了一种自我博弈算法,用于在风险敏感的马尔可夫游戏中学习纳什均衡、相关均衡和粗糙相关均衡。我们证明了该算法相对于风险平衡后悔在近乎最优的性能保证。
May, 2024
本文考虑了如何从人类交互数据中准确估计人类主体的偏好,并与行为经济学中的均衡概念相比较,其中四种基于行为均衡模型的估计方法被开发用于推断人类代理的效用,并使用 2x2 游戏的实验数据进行评估。结果表明,这些行为均衡方法产生的估计结果比纳什均衡法更准确,并且与量纲后悔法相比较,这些行为方法具有更好的命中率,但相对于整体均方误差来说,量纲后悔法表现更好,我们探讨了这些方法之间的差异。
Dec, 2021
通过互动问答的方式,本文提出了一个新的框架来识别代理人的风险厌恶。我们在一期和无限期两种情景下进行研究。在一期情景中,我们假设代理人的风险厌恶由状态的成本函数和失真风险度量来描述。在无限期情景中,我们采用一项额外的组成部分 —— 折扣因子 —— 来对风险厌恶进行建模。通过让代理人在各种可能依赖于他们之前答案的环境中展示他们的最优策略,我们证明了这是识别代理人的风险厌恶的有效方法。特别地,我们证明了随着问题数量趋近于无穷大并且随机设计问题,代理人的风险厌恶可以被识别。我们还开发了一种用于设计最优问题的算法,并通过模拟实验证明了我们的方法比随机设计问题更快地学习到风险厌恶。我们的框架在机器人顾问中有重要应用,并为识别代理人的风险偏好提供了新的方法。
Aug, 2023