BriefGPT.xyz
Ask
alpha
关键词
human teachers
搜索结果 - 2
从多元人类反馈中学习奖励函数:最优化整合演示和偏好
本文提出了一种从用户收集多源数据的框架,该框架结合了演示和偏好查询以学习奖励函数,可用于机器人模型中,并且在移动操作器 Fetch 上执行的模拟实验和用户研究验证了我们的方法的优越性和可用性。
PDF
4 years ago
使用动作建议优化 Minecraft 中的深度强化学习
使用交互式机器学习可以帮助训练具有复杂行为的深度强化学习智能体,但需要在人类教师的努力和代理性能之间实现平衡。本研究探讨了两种强化学习算法在具有视觉混淆的情况下,通过人类动作建议来提高代理性能、评估动作建议类型的潜在认知负荷以及提高训练效率
→
PDF
5 years ago
Prev
Next