BriefGPT.xyz
Ask
alpha
关键词
value-function
搜索结果 - 2
ICML
一种基于价值函数的内点法用于非凸双层优化
本文提出了一种新的基于值函数内点法的双层优化模型求解方法 BVFIM,通过对正则化值函数进行惩罚,进而获得一个连续可微的无约束逼近问题序列,解决了复杂的学习问题,数值实验验证了该方法的高效性和信噪比。
PDF
3 years ago
基于深度策略梯度和价值函数的强化学习交通信号灯控制
本文的研究探究了在使用深度神经网络架构和强化学习技术组合的方法来解决高维状态和行为空间下的复杂控制问题方面的最新进展,并构建了两种基于强化学习的算法:基于策略梯度和基于值函数的代理,以预测交通路口最佳的信号灯状态,通过 SUMO 交通模拟器
→
PDF
7 years ago
Prev
Next