BriefGPT.xyz
Ask
alpha
关键词
rlhf methods
搜索结果 - 1
基于人类评估反馈的原始技能基础机器人学习
SEED 是一个结合了人类反馈的强化学习和基于原始技能的强化学习的新框架,通过减少人类的工作量和增加训练过程的安全性,有效地解决了长期任务中的样本低效性和安全性问题。SEED 在五个具有不同复杂度的操作任务上表现出了比其他强化学习算法更高的
→
PDF
a year ago
Prev
Next