BriefGPT.xyz
Ask
alpha
关键词
stationary distributions
搜索结果 - 1
基于稳态分布校正估计的离线观测学习 - LobsDICE
该论文探究了在缺乏专家行为数据的情况下,通过学习观察结果来模拟专家行为的问题,并提出了一种基于离线学习的算法 LobsDICE,该算法通过优化稳定分布来实现模仿专家策略,并在一系列在线学习任务中表现出色。
PDF
2 years ago
Prev
Next