BriefGPT.xyz
Ask
alpha
关键词
feasible method
搜索结果 - 2
约束型近端策略优化
本文提出了一种名为 CPPO 的新型一阶可行方法,将受限强化学习问题视为概率推理问题。通过计算 E 步骤中的最优策略分布,并对当前策略进行一阶更新以调整至 E 步骤中获得的最优策略,解决了受限强化学习方法中二阶优化或原始 - 对偶框架的复杂
→
PDF
a year ago
关于正交约束无光滑组合优化问题的块坐标下降方法
提出了一种新的基于块坐标下降(OBCD)的非光滑复合优化方法,该方法能够在正交约束下解决一般的非光滑复合问题,是具备收敛保证的可行方法。
PDF
a year ago
Prev
Next