BriefGPT.xyz
Ask
alpha
关键词
human preference data
搜索结果 - 3
DIPPER:直接优化偏好以加速基元级层次强化学习
DIPPER 是一种高效的分层方法,结合直接优化和强化学习,在从人类偏好数据中学习更高级策略和更低级策略的基础上,解决了从人类偏好数据学习复杂机器人任务的挑战。
PDF
20 days ago
CVPR
探索人类偏好的文本生成动作
该论文探讨了在文本到动作生成中的首选学习,指出当前的文本到动作生成仍依赖于需要具备专业知识的数据集和动作捕捉系统;而从人类偏好数据学习则不需要动作捕捉系统,只需没有专业知识的标注人员比较两个生成的动作。我们提供了 3,528 个由 Moti
→
PDF
3 months ago
比较摘要模型需要多少注释?
在这项研究中,我们通过实证研究了在新闻摘要领域选择最佳性能的模型所需的测试样本大小,发现只需要少于 100 个样本即可收敛,并且人类偏好数据可以在各种下游摘要任务中量化自动评分的能力。
PDF
4 months ago
Prev
Next