BriefGPT.xyz
Ask
alpha
关键词
optimal value
搜索结果 - 1
一种基于 Q-learning 算法的重视服从性的推荐方法
开发了一种 “遵循感知 Q-learning” 算法,通过学习 “遵循水平” 来捕捉人类决策者遵循推荐行动的频率,实时推导出最佳推荐策略,证明了该算法收敛到最优值并在各种情境下评估了其性能。
PDF
10 months ago
Prev
Next