BriefGPT.xyz
Ask
alpha
关键词
advantage-aware policy optimization
搜索结果 - 1
离线强化学习的优势感知策略优化
离线强化学习通过利用脱机数据集来制定有效的智能体策略而无需在线交互,以克服行为策略所支持的适当保守约束来解决分布不匹配问题。本文引入了一种新的 Advantage-Aware Policy Optimization (A2PO) 方法,用于
→
PDF
4 months ago
Prev
Next