BriefGPT.xyz
Ask
alpha
关键词
maximum entropy rl framework
搜索结果 - 2
基于 Soft Actor-Critic 的强化学习在真实网络的拥塞控制中的应用
研究提出了一种基于最大熵强化学习算法的拥塞控制解决方案 (MARLIN),该方法使用软 Actor-Critic 算法并将学习过程建模为一个无限时间任务,经过实验测试,MARLIN 可以在文件传输任务中取得与 TCP Cubic 可比较的结
→
PDF
a year ago
软性演员 - 评论家算法及其应用
本文介绍了一种基于最大熵强化学习框架的离线演员 - 评论家算法 Soft Actor-Critic,其中演员旨在同时最大化期望回报和熵,以在任务中成功执行尽可能随机的动作。作者通过对其进行一系列改进,如约束模型等,提高了模型的稳定性和训练速
→
PDF
6 years ago
Prev
Next