BriefGPT.xyz
Ask
alpha
关键词
multi-class loss function
搜索结果 - 1
ICML
基于评级的强化学习
本文提出了一种新的基于评分的强化学习方法,利用人类评分来获取强化学习中的人类指导。该方法与现有的基于偏好和基于排名的强化学习范例不同,通过对样本轨迹的人类评估而非样本对的相对比较,基于人类评分构建了新的预测模型和新的多类损失函数。我们通过基
→
PDF
a year ago
Prev
Next