BriefGPT.xyz
Ask
alpha
关键词
reward modelling
搜索结果 - 3
通过分布偏好奖励建模对齐群体反馈
分布偏好奖励模型(DPRM)是一个简单而有效的框架,通过将最大语言模型(LLM)与多样化的人类偏好对齐,以提高对人群偏好的代表性。
PDF
5 months ago
可解释的多实例学习实现基于轨迹标签的非马尔可夫奖励建模
本文中,我们将奖励建模应用于处理非马尔可夫奖励的强化学习问题,我们在此基础上移除了现有工作假设的独立反馈观察前提,并扩展了奖励建模以捕捉人类对轨迹的时间依赖关系。我们将其作为多实例学习(MIL)问题,通过将轨迹视为带有返回标签的包,将轨迹中
→
PDF
2 years ago
基于归一化流的观测式模仿学习 (IL-flOw)
本论文介绍了一种基于状态观测的逆强化学习算法 IL-flOw,其将奖励建模与策略学习解耦,并利用深度密度估计方法生成奖励信号,避免了对抗训练方法的不稳定性问题。通过使用状态转移概率密度作为正向强化学习的奖励信号,实验结果展示了在大规模机器人
→
PDF
2 years ago
Prev
Next