RLHF 使用于 LLMs 中,本文探讨了 RLHF 的限制和关注民主规范方面的政策挑战,同时提出了建立透明投票规则和聚焦特定用户群体的 AI 代理的需求。
Oct, 2023
深入探讨人机交互技术中基于人类反馈的强化学习(RLHF)的基本原理、应用及其研究趋势。
Dec, 2023
多方强化学习与人类反馈是新兴的方法,以使模型符合人类的偏好。本文通过理论研究,探讨了多个个体的多样化偏好的多方强化学习方法,并展示传统方法不适用的情况。文章提出了引入元学习以及采用不同的社会福利函数来聚合多方偏好的方式,其中包括纳什、功利主义和 Leximin 福利函数。同时,文章还考虑了无奖励设置,并给出了基于离线偏好数据的 von Neumann Winner 的悲观变体。研究结果表明,多方强化学习与传统单方强化学习在样本复杂度上存在差异,并凸显了多方强化学习的统计复杂性要求。
Mar, 2024
利用个性化和聚合两个框架解决存在异质人类反馈的增强学习中的问题并确保较高的样本效率。
Apr, 2024
从数据和算法的角度出发,本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法,包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响,并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力,从而实现迭代优化。
Jan, 2024
本文系统地研究了 RLHF 的社会影响,提出了七种 RLHF 的应用方式,分析了其对人类体验 AI 的积极影响,同时也探讨了 RLHF 可能带来的社会道德问题,以及其与人类相互作用的方面。因为 RLHF 引发的关注类似于现有 AI 技术引发的关注,因此需要对 RLHF 的采用进行审慎且有意识的考虑。
Mar, 2023
这篇文章证明了,对于广泛的偏好模型,我们可以使用现有的算法和技术,直接解决基于偏好的强化学习问题,具有小的或没有额外成本。
Jun, 2023
本研究通过发展新的强化学习方法,解决了基于喜好反馈的多轮对话中规划和多轮互动问题,通过实验证明该算法在教育对话环境中超越了基线模型,同时在含有明确奖励的环境中也能达到基于奖励强化学习模型的性能
May, 2024
这篇论文研究了基于人类反馈的强化学习方法,通过一种概率偏好模型来学习,实验了一种新的学习范式,KL 正则化 NLHF,旨在找到以初始模型为基础,持续生成优于竞争策略的响应的策略,并将其与传统的强化学习理论联系起来,验证了无奖励模型学习在一般偏好下的潜力。
Feb, 2024
基于社会选择理论,在强化学习中的人类反馈背景下,通过人类进行的成对比较推导出奖励函数,我们提出了一种具有强公理保证的学习奖励函数的创新规则,利用线性社会选择的新范式限制了可行规则空间。