Nov, 2023

确保最优策略存在的偏好关系条件

TL;DR使用直接偏好流程的新框架,在部分可观察、非马尔科夫环境中分析 LfPF 问题,通过考虑偏好的序结构建立了保证最优策略存在的条件,并使用冯・诺伊曼 - 摩根斯坦恩预期效用理论证明了直接偏好流程推广了标准强化学习问题。