BriefGPT.xyz
Ask
alpha
关键词
implicit policy-finding problem
搜索结果 - 1
AlignIQL: 隐式 Q 学习中的策略对齐通过约束优化
本研究提出了一种解决隐式策略发现问题的方法,并通过优化问题的形式对其进行了描述。基于这个优化问题,我们进一步提出了两种实用算法 AlignIQL 和 AlignIQL-hard,它们继承了 IQL 中演员和评论家解耦的优势,并阐明了为什么
→
PDF
a month ago
Prev
Next