基于偏好的强化学习中的探索奖励不确定性
使用基于偏好的后验采样和贝叶斯方法解决了强化学习中的信用指派问题,提出了一种新的算法DUELING POSTERIOR SAMPLING(DPS),并且给出了第一个关于基于偏好的RL的后验保证率。
Aug, 2019
使用多任务学习来实现基于人类反馈的强化学习,通过将偏好模型训练在以前的任务数据上,我们仅需要很少的查询就可以在Meta-World中训练出具有更好效果的机器人策略模型。
Dec, 2022
提出了一种名为Inverse Preference Learning(IPL)的新算法,用于从离线偏好数据中学习奖励函数,该算法使用Q函数来代替学习得到的奖励函数,具有更高的参数效率和更少的算法超参数和学习网络参数。
May, 2023
通过排列的方式学习奖励函数,本研究提出了一个新的强化学习框架-HERON,通过比较轨迹并使用决策树进行优先级排序来训练基于偏好的奖励模型,从而在处理复杂任务时减少了人工成本同时提高了性能。
Sep, 2023
使用最大熵原理,引入了一种从人类反馈中优化行为的新型算法Contrastive Preference Learning (CPL),该算法能够在不学习奖励函数的情况下,通过偏好学习最优策略,克服了优化挑战并能应用于任意MDPs环境。
Oct, 2023
通过提出一种新的探索策略,克服现有方法的局限性,即使奖励不总是可观察到,也能保证收敛到最佳策略。我们还提出了一系列用于在强化学习中进行探索的表格环境(有或没有不可观察的奖励),并展示我们的方法优于现有方法。
Jun, 2024
通过将人类反馈作为指导,LOPE方法在困难的任务中提高了探索效率,通过最小化首选轨迹和学习策略之间的最大平均偏差距离,我们提供了理论分析来表征LOPE性能提升的边界,并在各种具有挑战性的困难探索环境中展现了比其他最先进方法更好的收敛速度和整体性能。
Jul, 2024
本研究解决了现有强化学习人类反馈(RLHF)方法无法处理个体偏好差异的问题。我们提出了一种新颖的多模态RLHF方法,通过推断用户特定的潜在变量来定制奖励模型和策略,实现个性化学习。实验证明,该方法在不同用户群体中有效提高了奖励函数的准确性,并在处理不确定性和积极学习用户偏好方面表现出显著优势。
Aug, 2024
本研究针对强化学习人类反馈中 reward 模型的不确定性问题,提出了一种不确定性意识的保守算法以优化策略。通过理论和实验证实,该方法可降低风险,同时提高模型与人类偏好的一致性,具有重要的潜在影响。
Oct, 2024