BriefGPT.xyz
Ask
alpha
关键词
long-term rewards
搜索结果 - 2
SIGIR
基于随机奖励稳定化的模型无关强化学习在推荐系统中的应用
基于无模型的强化学习推荐系统,通过引入两种随机奖励稳定化框架以替换直接的随机反馈,成功应对了用户在不同时间对同一项的随机反馈问题。
PDF
10 months ago
网络多智能体强化学习中局部策略迭代的全局收敛性
本研究提出了一种名为局部策略迭代的算法,可以通过提高智能体之间的合作,最大化长期奖励的平均值,解决了多智能体强化学习问题中所面临的维度诅咒和通信限制的问题。
PDF
2 years ago
Prev
Next