BriefGPT.xyz
Ask
alpha
关键词
linear reward functions
搜索结果 - 3
关于局部隐私线性情境赌博机的最佳后悔
通过分析均值绝对偏差误差和分层主成分回归,我们展示了一种能够在局部隐私线性情境播放机中实现 O (√T) 累积遗憾上界的解决方案。
PDF
3 months ago
奖励模型学习与直接策略优化:从人类偏好中学习的比较分析
通过系统比较强化学习从人类反馈中学习的范例与最近提出的直接偏好优化范例,我们向更深入地理解从人类偏好中学习迈进了一步。我们集中关注对数线性策略参数化和线性奖励函数的类别。
PDF
4 months ago
主动反向奖励设计
通过与用户交互,选择最能反映真实回报的问题来迭代 AI 代理的奖励函数设计,我们的方法优于 Inverse Reward Design,且可以推断非线性奖励函数,包括可解释的线性奖励函数。
PDF
6 years ago
Prev
Next