Mar, 2024

偏好基于规划的随机环境:从部分有序时态目标到最受欢迎的策略

TL;DR使用局部有序偏好对具有时限目标的马尔可夫决策过程进行决策和概率规划,将部分有序偏好通过引入顺序理论映射到这些目标的偏好决策,从而综合出最喜欢的策略。