关键词policy gradient optimization
搜索结果 - 3
- ICML利用非均匀性进行一阶非凸优化
通过非统一的平滑性和非统一的 Lojasiewicz 不等式,提出了一些新的方法,用于更快地达到全局最优点,在强化学习和监督学习中表现出了广泛的适用性及实验效果。
- Saccader: 改进视觉硬注意力模型的准确性
通过 Saccader 硬关注模型,基于类标签和策略梯度优化算法,准确分类图像并显示只注视图像的部分,性能达到了接近 ImageNet 基准的 75% 和 91% 的 Top-1 和 Top-5
- 风险厌恶通用凸化
提出了一个凸化框架,使用随机梯度方法的算法来解决不同领域的优化问题,包括监督学习和动态系统,并且导出了模型驱动和模型无关的策略梯度优化算法,收敛性得到保证。