Nov, 2023

通过熵率最小化实现可预测的强化学习动力学

TL;DR提出一种名为可预测性感知强化学习 (Predictability-Aware RL,PA-RL) 的新方法,利用状态序列熵率作为可预测性度量,通过引入基于动作的替代熵来实现行为的可预测性,从而在人机互动场景的强化学习任务中产生更可预测的行为并实现接近最优奖励。