Sep, 2023

一种基于 Q-learning 算法的重视服从性的推荐方法

TL;DR开发了一种 “遵循感知 Q-learning” 算法,通过学习 “遵循水平” 来捕捉人类决策者遵循推荐行动的频率,实时推导出最佳推荐策略,证明了该算法收敛到最优值并在各种情境下评估了其性能。