policy-gradient methods | BriefGPT

关键词policy-gradient methods

搜索结果 - 5

基于局部李雅普诺夫条件的得分感知策略梯度方法与性能保证：应用于产品形式随机网络和排队系统
通过利用底层 MDP 的结构，引入了一种新的梯度估计器家族 ——SAGEs，它们可以在无需依赖于值函数估计的情况下估计策略梯度，相较于经典的 actor-critic 等策略梯度方法具有更快的收敛速度，并通过数值比较证明了其优越性。
PDF7 months ago
精细调整包容性语言模型的代理 - 环境接口破碎
本文提出了一种新的方法，将预训练的语言模型同时用作策略、奖励函数和转移函数，从而实现了奖励学习和语言模型微调的联合和直接处理，并通过处理认知不确定性来实现高效探索。
PDFa year ago
应对生涯强化学习中非稳态性的反应性探索
该论文探讨了在终身学习的情境下如何跟踪和适应持续的领域转变，为此提出了反应式探索方法，并基于实验证明，策略梯度方法是适合于终身学习的一种学习方法，能更快地适应分布变化。
PDF2 years ago
ICML强化学习的模块化：通过算法独立性进行信用分配
本研究提出了一种模块化信用分配的形式化理论，通过对算法自身的因果分析，将社会决策制定框架作为马尔可夫决策过程的更精细正式框架，证明了一些单步时序差分行为价值方法满足这一约束条件，而所有政策梯度方法都不满足该约束条件，传输学习的实证研究表明这
PDF3 years ago
CVPR图像字幕的自我批判序列训练
本研究通过自我批判的序列训练 (SCST) 优化了图像说明系统，采用强化学习的政策梯度方法直接训练系统，并使用 MSCOCO 测试指标，使性能显著提高，实现了针对端到端系统直接优化非可微分度量的目标。
PDF8 years ago