- 优化学习奖励函数的危险性:低训练误差并不能保证低后悔
通过数学证明,该论文指出学习到的奖励模型的预期测试误差越低,最差情况的后悔也越小,然而对于任意固定预期测试误差而言,存在着导致误差和后悔不匹配的现实数据分布,该问题即使在使用常见的强化学习方法中同样存在。因此,该论文的理论结果强调了开发衡量 - 来自损坏人类反馈的鲁棒强化学习
通过稀疏异常点建模,我们提出了一种健壮的增强学习训练方法 $R^3M$,可以从人类反馈数据中一致地学习出潜在的奖励和异常点,并且在偏好数据扰动方面表现出强鲁棒性。
- ICML一个用于离线从人类示范和反馈中学习奖励的统一线性规划框架
这篇论文介绍了一个针对离线奖励学习的新型线性规划(LP)框架,通过基于观察到的人类演示和反馈来推断和塑造顺序决策问题的底层奖励函数,并在保持计算可行性和样本效率的同时,提供可证明的样本效率优化保证。
- 基于人类偏好的奖励学习中基于先见性 L2 正则化
通过引入一种赋分策略(Hindsight PRIOR),将状态重要性纳入奖励学习中,可以改善策略学习速度、整体性能和奖励恢复,在元世界(20%)和 DMC(15%)的运动和操纵任务上平均恢复了更多奖励,这表明赋分策略对奖励学习有很大的益处, - ACL利用策略奖励学习对语言模型进行微调
提出了一种基于策略的奖励学习(RLP)无监督框架,通过使用策略样本来完善奖励模型,以保持其在分布上的一致性,实验结果表明 RLP 在三个基准数据集上始终优于现有技术。
- RIME:基于噪声偏好的鲁棒化基于优先级的强化学习
通过使用人类偏好作为奖励信号,基于偏好的强化学习(PbRL)避免了对奖励设计的需求。然而,当前的 PbRL 算法过于依赖领域专家的高质量反馈,导致鲁棒性不足。本文提出 RIME,一种从嘈杂偏好中有效学习奖励的鲁棒 PbRL 算法。我们的方法 - 关于增强学习中客观规范形式表达能力的研究
通过广泛比较 17 种强化学习目标规范形式的表达能力,我们发现不同形式主义存在多种限制,并未找到一种同时具有主导性表达能力和当前技术下优化简便性的形式主义。这些发现对策略优化和奖励学习有重要影响,并强调了未来研究在奖励学习方法中适应多种形式 - 逆强化学习:从示范中推导与适应双足行走奖励学习
通过逆强化学习 (IRL) 技术解决复杂地形上的双足机器人行走问题,并提出用于学习专家奖励函数的算法,通过非线性函数逼近揭示专家的运动策略,同时通过训练推断奖励函数,提高双足机器人在未知地形上的行走性能。
- ACL通过对比奖励学习提高抽象摘要生成的准确性
通过对比学习框架和事实度指标的最新发展,本文提出了一种简单而有效的对比学习框架,实证研究表明该框架能够通过对比奖励学习从事实度指标的反馈中学习,从而在人类评估中生成更加符合事实的摘要,这表明学习和评估算法的进一步发展可直接提供更加符合事实的 - 语言对齐的视觉表示预测自然学习任务中的人类行为
本研究探讨类别学习和奖励学习实验中的泛化技能和预测人类行为的最有效表示方法,结果表明,深度学习模型从文本和图像数据中训练得到的表示方式优于仅从图像中训练得到的表示方式,强调了语言在塑造人类认知中的作用。
- ICMLLIV: 语言 - 图像表示和奖励在机器人控制中的应用
Language-Image Value learning (LIV) is used to pre-train a multi-modal representation for vision-language and reward lea - 多个教师的主动奖励学习
利用多种来源的人类反馈信息可提高强化学习算法的效率和准确性,通过算法来评估不同来源反馈信息的价值,可以有效地选择最具价值的教师进行反馈,从而提高人类价值和人工智能行为的一致性。
- 奖励学习作为双非参数赌博机:最佳设计和标度律
该文提出了一个理论框架来探究奖励学习和相关最优实验设计问题,利用非参数函数来模拟奖励模型和策略,借助岭回归算法开展无渐进过度风险边界分析,以此解决最优实验设计问题。文中应用这个理论框架探究高斯过程赌博优化问题,与泊松核已有研究进行了比较。
- AAAI利用未标记的数据进行高效反馈的基于人类偏好的强化学习
本文提出了两个损失函数,利用未标记的轨迹集参与奖励学习过程,并结构化奖励模型的嵌入空间以反映状态空间与操作距离之间的结构,旨在提高样本效率和奖励恢复能力,该方法在基于机械臂操作的领域上比当前的最优算法 PEBBLE 表现更好。
- 论学习奖励函数的脆弱性
本文研究了基于奖励学习的优化过程中,由于训练数据集的变化或奖励模型的设计问题导致重新学习变得困难的问题,强调了需要在文献中加入更多的基于重新训练的评估方法。
- ICML基于图形激活奖励学习的通用空间目标表示发现
本文讨论了一种针对物体重新排列任务的单次模仿学习方法,通过基于图等价映射的奖励学习策略发现和学习与目标规范一致的空间目标表达,并与强基线方法相比,显著提高了学习目标表达在不同环境下的泛化能力。
- 模仿学习:清晰的实现
该研究提供了基于 PyTorch 的开源模型实现,包括三个逆强化学习算法、三个模仿学习算法和一个偏好比较算法,并使用模块化的实现方式使算法开发变得简单。通过自动化测试覆盖了 98% 的代码并已对以前的结果进行基准测试。
- 逆强化学习环境设计
通过适应性设计专家演示环境,改善学习效率和鲁棒性,解决基于专家演示学习和环境动力学变化下的奖励函数学习挑战。
- ICLRVIP:通过价值内隐预训练实现通用视觉奖励和表示
本研究提出了一种称为 VIP 的表示自学习方法,通过自监督目标条件强化学习的方式从未标注的人类视频中生成稠密的,可平滑的奖励函数,克服机器人数据获取上的困难,并在实验中表现出优异的表现。
- AAAI建模人类理性水平对从多种反馈类型中学习奖励的影响
本文提出将理性系数与每种反馈类型的真实数据相结合,而不是假定默认值,对奖励学习有显着的正面影响,并发现高估人类理性可能对奖励学习的准确性和遗憾产生严重影响。在多种人类反馈和模拟实验中实现,这表明了在主体积极从多种人类反馈中学习时,关注假定的