BriefGPT.xyz
Ask
alpha
关键词
adaptive action supervision
搜索结果 - 1
来自真实多智能体演示的强化学习中的自适应动作监督
本文提出了一种自适应动作监督的 RL 方法,通过动态时间规整的最小距离选择 RL 真实世界演示中的动作,使得 RL 模型能够在网络空间获得回报
PDF
a year ago
Prev
Next