BriefGPT.xyz
Ask
alpha
关键词
rl-low
搜索结果 - 1
ICML
离线强化学习中基于示例的最优订单界限与偏好反馈
我们提出了一种称为 RL-LOW 的算法,用于处理离线强化学习中的优化动作问题,针对偏好反馈情况下的线性未知参数隐式奖励,提出了实例相关的上下界并拓展到隐私保护设置。
PDF
18 days ago
Prev
Next