BriefGPT.xyz
Ask
alpha
关键词
entropic risk measure
搜索结果 - 3
AAAI
非平稳风险敏感强化学习:近似最优动态遗憾、自适应检测和分离设计
研究使用熵风险度量在非平稳有限马尔可夫决策过程中采用风险敏感强化学习,提出了两种基于重启的算法以及自适应检测不稳定性的元算法,并证明了算法的动态后悔下界。该研究为文献中的非平稳风险敏感强化学习提供了首个非渐近理论分析。
PDF
2 years ago
通过可证明遗憾界实现分布式和风险敏感的强化学习
研究了通过分布式强化学习方法实现风险敏感强化学习的后悔保证,提出了两种新的 DRL 算法,并通过样本复杂度桥接了 DRL 和 RSRL。同时还改进了现有的下限,并提出了更紧的下限。
PDF
2 years ago
指数贝尔曼方程与强化学习风险敏感性的改进遗憾界
本研究旨在探究基于熵风险度量的风险敏感强化学习,通过开发一种新的风险敏感反馈机制,使得监督过程能够更有效地引导智能体策略的改进,进而提升其性能表现。
PDF
3 years ago
Prev
Next