BriefGPT.xyz
Ask
alpha
关键词
trajectory-wise exploration
搜索结果 - 1
基于轨迹的迭代强化学习框架用于自动投标
在线广告中,通过使用增强学习的自动竞价算法,部署多个自动竞价代理进行数据收集与训练,提出了一种迭代的离线增强学习框架,通过轨迹的探索和利用方法进行数据采集与利用,以解决传统离线增强学习算法的有效探索和开发性能瓶颈,并结合安全探索和适应性行动
→
PDF
5 months ago
Prev
Next