本文介绍了一种新的算法,批量主动偏好学习,它使用尽可能少的数据样本进行有效的奖励函数学习,并具有较短的查询生成时间。我们为批量主动学习问题引入了几个近似,并为我们的算法的收敛提供了理论保证。通过在模拟中进行各种机器人任务的实验,我们的结果表明我们的批量主动学习算法仅需要少量计算时间短的查询。最后,我们将展示我们的算法在学习人类用户喜好的研究中的应用。
Oct, 2018
本文介绍了一种基于用户反馈的偏好学习方法,利用高斯过程 (GP) 对奖励函数进行建模,在不增加结构限制并避免数据不足和刚性的问题的情况下,仅通过比较轨迹即可有效学习机器人任务的表达性奖励函数。
May, 2020
该研究提出了 DemPref 框架,结合演示和偏好查询来学习奖励函数,其对标准偏好学习方法具有更高的效率和更好的性能。
Jun, 2019
为了实现机器人在不同环境和人类偏好中的适应性,本研究提出了在线稀疏二元偏好查询的方法,通过设计查询和决定何时呈现查询来最大化查询结果的信息价值,从而使得机器人能够快速适应实际应用场景并减轻人类专家的负担,在模拟,人类用户研究和真实机器人实验中,该方法表现优于传统技术并减少人类专家的查询负担。
Feb, 2023
利用 DPO 进行喂养,通过预测语言模型的预测熵和由 DPO 优化的隐式优先级模型的确定性度量,我们开发了一种主动学习策略来更好地利用偏好标签,从而提高配对偏好数据的学习速率和最终性能。
Feb, 2024
本文提出了一种基于偏好反馈的强化学习算法,结合了主动排序策略,能够在具有限先验知识(如群体机器人)的情景下,使用专家反馈指导智能体的策略搜索,经过少量专家排序即可获得满意的策略。
Aug, 2012
本文提出了一种从用户收集多源数据的框架,该框架结合了演示和偏好查询以学习奖励函数,可用于机器人模型中,并且在移动操作器 Fetch 上执行的模拟实验和用户研究验证了我们的方法的优越性和可用性。
Jun, 2020
优化查询方法在学习奖励函数上的表现优于信息增益方法。
Mar, 2024
本文提出了一种使用确定性点过程的新的原则性批处理主动学习方法,以生成样本的多样性批次。我们还开发了可行的算法来近似 DPP 分布的模式,并提供了理论保证。我们在几个数据集上的实验表明了我们这种方法的价值。
通过从偏好中学习奖励函数,本文解决了批量强化学习设置中缺乏奖励的问题,并提出了一种新的概率模型来建模标签的可靠性,利用协作的标签来平滑估计。在 Atari 数据集上的评估证明了所提出的模型的有效性,并进行了消融研究以分析所提出的想法的相对重要性。
Nov, 2021