BriefGPT.xyz
Ask
alpha
关键词
hidden-utility self-play
搜索结果 - 1
ICLR
假设人类有偏见,学习与人类的零射合作
本研究针对多智能体强化学习在与人合作零 - shot 学习过程中的十分关键的限制,并提出了一种更通用的 Hidden-Utility Self-Play (HSP) 方法,该方法显式地模拟人类的偏好作为自我博弈的隐藏奖励函数。通过评估 Ov
→
PDF
a year ago
Prev
Next