多个教师的主动奖励学习
本文提出了一种从用户收集多源数据的框架,该框架结合了演示和偏好查询以学习奖励函数,可用于机器人模型中,并且在移动操作器 Fetch 上执行的模拟实验和用户研究验证了我们的方法的优越性和可用性。
Jun, 2020
隐藏效用强盗(HUB)框架及主动教师选择算法(ATS)在多教师情境下学习准确奖励模型方面表现出色,为活跃教师选择提供了有力支持,并促进了对于强化学习的未来研究。
Oct, 2023
研究人机交互中智能机器人的学习奖励功能从而完成任务,探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能,包括两两比较、评分、最佳选择等,并提出主动学习技术,以优化从用户反馈中获得的期望信息,进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。
Oct, 2022
我们提出了多目标强化主动学习 (Multi-Objective Reinforced Active Learning, MORAL) 方法,通过维护标量化权重的分布,交互式地调整深度强化学习代理向各种偏好的方向发展,从而将社会规范的不同展示组合成帕累托最优策略,并消除了计算多个策略的需要。我们在两种场景中对 MORAL 的有效性进行了实证验证,并将其视为学习奖励的多目标强化学习 (Multi-objective RL) 的一步,弥合了当前奖励学习和机器伦理文献之间的差距。
Dec, 2021
通过提供内在的奖励机制,增加多智能体环境中 RL 学习的效率,我们在多智能体 Hide and Seek 和单智能体迷宫任务中,考察了一系列根据预测问题构建的内在老师奖励,并发现其中价值不一致是最为稳健和高效的奖励方式。
Mar, 2022
本文提出了一种人与机器人交互的新方式,通过以人类指导机器人从高表达特征的状态到不表达该特征的状态的方法来学习机器人掌握的特征,然后将其集成到奖励函数中,大大降低了样本复杂度并提高了奖励的泛化性能。
Jun, 2020
本文介绍一种名为 “学习教学” 的方法,它利用两个智能代理相互交互:一个学生模型和一个教师模型。教师模型利用学生模型的反馈来优化自己的教学策略,以达到教师和学生的共同进化,并在各种机器学习任务下通过使用深度神经网络等模型来展示这一方法的实用价值。
May, 2018
研究如何从人类的行为或反馈中学习奖励函数,并提出一种单一的形式化框架,将各种不同类型的行为诠释为人类所做出的奖励选择,这既可用于解读过去的工作,又能为今后的研究提供借鉴和启迪。
Feb, 2020
本文通过在一个类似于赌博机的并行学习测试平台中比较 14 个不同的回报机制,探索并比较不同的内在回报机制,重点突出了奖励和预测学习器之间的交互作用和内省预测学习器的重要性。结果表明,基于学习量的内在奖励可以生成有用的行为,如果每个学习器是内省的。
Jun, 2019