通过人类反馈的强化学习学习可解释的飞机操纵行为模型

May, 2023

通过人类反馈的强化学习学习可解释的飞机操纵行为模型

Learning Interpretable Models of Aircraft Handling Behaviour by Reinforcement Learning from Human Feedback

Tom Bewley, Jonathan Lawry, Arthur Richards

TL;DR该研究通过采用人的反馈，使用一种名为强化学习（RL）的方法，提出一种捕捉快速喷气机飞行员处理能力的软件模型。该模型通过对模拟飞行轨迹的成对偏好进行学习，得出一个可解释的基于规则的模型（reward tree），它能够自动将轨迹进行评分，并生成解释性的原理。使用奖励树作为RL代理的导向目标，该代理能够执行高质量的处理行为，并产生数据用于迭代偏好收集和进一步的修正。实验结果表明，使用原型成对偏好的奖励树，在定性和定量评估中与不可解释的神经网络奖励模型具有相媲美的表现。

Abstract

We propose a method to capture the handling abilities of fast jet pilots in a software model via reinforcement learning (RL) from human preference feedback. We use pairwise preferences over simulated flight trajectories

发现论文，激发创造

基于偏好的强化学习中的探索奖励不确定性

本文提出了基于学习奖励值的新颖探索方法来解决当前偏好型强化学习算法中人类反馈低效的问题，并在MetaWorld基准测试的复杂机器人操作任务中证明了其有效性。

May, 2022

用树实现奖励学习：方法和评估

本文探讨了使用可读性更好的树模型进行奖励函数生成的优势，并通过实验证明其在高维复杂任务上具有与神经网络同等的有效性与鲁棒性，并展示其可追溯性、验证性和可解释性。

Oct, 2022

符号引导下基于事后先验的从人类偏好中学习奖励

本文研究强化学习中的奖励函数的学习，提出了利用先验知识和偏好数据约束奖励函数的PRIOR框架，可以降低50%的反馈数量并提高奖励函数学习和代理性能。

Oct, 2022

相对行为属性：填补符号目标规范和从人类偏好中学习奖励之间的差距

利用相对行为属性的概念，可以从行为片段中优化智能体的行为表现，并以远少于基线方法的反馈次数，实现非专家用户对智能体行为的偏好指定。

Oct, 2022

论学习奖励函数的脆弱性

本文研究了基于奖励学习的优化过程中，由于训练数据集的变化或奖励模型的设计问题导致重新学习变得困难的问题，强调了需要在文献中加入更多的基于重新训练的评估方法。

Jan, 2023

基于状态扩展的人类偏好强化学习方法

本文提出了一种状态增强技术，利用二元反馈帮助人类进一步了解代理行为来学习奖励模型为强化学习提供更好的支持，并在三种任务领域 Mountain Car、Quadruped-Walk 和 Sweep-Into 中验证了其有效性。

Feb, 2023

深度强化学习基于层次性弱偏好反馈

通过排列的方式学习奖励函数，本研究提出了一个新的强化学习框架-HERON，通过比较轨迹并使用决策树进行优先级排序来训练基于偏好的奖励模型，从而在处理复杂任务时减少了人工成本同时提高了性能。

Sep, 2023

对比偏好学习：无需 RL 的人类反馈学习

使用最大熵原理，引入了一种从人类反馈中优化行为的新型算法Contrastive Preference Learning (CPL)，该算法能够在不学习奖励函数的情况下，通过偏好学习最优策略，克服了优化挑战并能应用于任意MDPs环境。

Oct, 2023

超越人类偏好：通过LLMs探索强化学习轨迹的评估与改进

基于偏好的强化学习利用大型语言模型生成自动偏好数据，并通过重构奖励函数来优化强化学习训练，在复杂环境中加速收敛并提高效果。

Jun, 2024

基于变分偏好学习的人类反馈个性化强化学习

本研究解决了现有强化学习人类反馈（RLHF）方法无法处理个体偏好差异的问题。我们提出了一种新颖的多模态RLHF方法，通过推断用户特定的潜在变量来定制奖励模型和策略，实现个性化学习。实验证明，该方法在不同用户群体中有效提高了奖励函数的准确性，并在处理不确定性和积极学习用户偏好方面表现出显著优势。

Aug, 2024