BriefGPT.xyz
Ask
alpha
关键词
sample-efficiency guarantees
搜索结果 - 1
基于价值和密度比实现的离线强化学习:间隙的威力
本研究针对离线强化学习中的样本利用效率问题,提出了基于地位结构的重要性采样(MIS)的悲观算法,并利用较弱的函数逼近前提给出保证。
PDF
2 years ago
Prev
Next