BriefGPT.xyz
大模型
Ask
alpha
关键词
soft actor critic
搜索结果 - 4
针对未知情况的调整:重新审视终身强化学习的评估策略
本文研究了终身强化学习中的关键问题,通过新的调优和评估方法,在只有百分之一的实验数据用于超参数调整的情况下,发现 DQN 和 Soft Actor Critic 方法表现不佳,而一些保持网络可塑性的算法措施表现出色,并且网络不断学习的能力与
→
PDF
3 months ago
智能体与陌生人进行接力赛?将强化学习泛化到分布之外的轨迹
本文主要研究重新概括(relay-generalization)强化学习(reinforcement learning,RL)代理人在可控状态下的性能,并提出一种名为自我轨迹增强(Self-Trajectory Augmentation,S
→
PDF
a year ago
基于软 Actor-Critic 的自适应设备 - 边缘联合推理框架
提出了一种基于 Deep Neural Network(DNN)模型的 IoT 设备与边缘协同计算框架,通过多分支结构、智能早停、硬件中间分割与整数量化等技术实现了优秀的通信负载和执行精度平衡,结合基于 Soft Actor Critic(
→
PDF
2 years ago
使用规范化流策略改进软演员 - 评论家算法的探索能力
该研究提出了一种基于 Soft Actor Critic 算法的正态流策略分布模型,增加了模型的表达能力以提高稳定性和适应稀疏奖励环境下的探索能力。
PDF
5 years ago
Prev
Next