本文介绍了一种新的算法,批量主动偏好学习,它使用尽可能少的数据样本进行有效的奖励函数学习,并具有较短的查询生成时间。我们为批量主动学习问题引入了几个近似,并为我们的算法的收敛提供了理论保证。通过在模拟中进行各种机器人任务的实验,我们的结果表明我们的批量主动学习算法仅需要少量计算时间短的查询。最后,我们将展示我们的算法在学习人类用户喜好的研究中的应用。
Oct, 2018
论文探讨了一个基于信息增益的方法来选择机器人询问人类专家的问题,该方法考虑了人类回答问题的能力,并优化了机器人和人类的不确定性之间的权衡以及问题的可重复性和成本控制,仿真实验和用户研究证明该方法不仅产生易于回答的问题,而且最终也导致更快的奖励学习。
Oct, 2019
本文提出了一种从用户收集多源数据的框架,该框架结合了演示和偏好查询以学习奖励函数,可用于机器人模型中,并且在移动操作器 Fetch 上执行的模拟实验和用户研究验证了我们的方法的优越性和可用性。
Jun, 2020
使用多任务学习来实现基于人类反馈的强化学习,通过将偏好模型训练在以前的任务数据上,我们仅需要很少的查询就可以在Meta-World中训练出具有更好效果的机器人策略模型。
Dec, 2022
本文提出了一种利用离线数据进行偏好学习的方法,通过基于池的主动学习生成偏好查询,学习奖励函数的分布,通过离线强化学习优化相应的策略,从而使代理人能够在未显示的离线数据中学习执行新任务。
Jan, 2023
提出了一种基于主动学习的RLHF方法,通过半数查询获得与最先进的DPO方法相当的性能。
Feb, 2024
通过批次主动的偏好学习方法,本研究开发了一组新的算法,能够有效学习奖励函数并在短时间内生成少量查询,实验结果表明该算法在机器人学习中的多种任务上表现良好。
优化查询方法在学习奖励函数上的表现优于信息增益方法。
Mar, 2024
本研究解决了现有辅助机器人交互中用户偏好学习不够有效的问题。提出了一种名为CMA-ES-IG的算法,通过优先考虑用户体验,生成用户排名的轨迹。实验证明,该算法相比于传统方法在身体和社交机器人任务中更为直观易用,具有显著提高用户体验的潜力。
Nov, 2024
本研究解决了现有基于人类反馈的学习方法单一查询形式的问题,提出了一个能够利用多种用户交互模式的自适应反馈选择框架。通过优化查询状态和反馈格式,该方法有效提高了对不安全行为的惩罚函数学习,并在模拟评估中展示了其样本效率。
Dec, 2024