- 贝叶斯逆强化学习用于非马尔可夫奖励
从专家行为中直接推断出奖励机制(RM)的贝叶斯逆强化学习(BIRL)框架,以非 Markovian 奖励函数为基础进行了重大改进,新的奖励空间定义,将专家示范调整为包括历史,展示了计算奖励后验的方法,并提出了一种模拟退火的新修改方案来最大化 - 无调谐扩散模型的直接噪声优化对齐
本论文主要关注扩散模型与连续奖励函数的对齐问题,提出了一种名为直接噪声优化(DNO)的新型对齐方法,通过在线生成过程中优化注入的噪声来调整扩散模型所学习的分布,以使生成的样本最大化目标奖励函数。实验结果表明,DNO 方法在人类反馈数据上训练 - 语言模型是否容易受到 PPO 攻击?
我们的研究旨在通过使用静态学习的情感分类器评估奖励对积极情感生成的影响,并在机械翻译可解释性的视角下研究经过近端策略优化的预训练 GPT-2 模型。
- AI 对齐的公理
基于社会选择理论,在强化学习中的人类反馈背景下,通过人类进行的成对比较推导出奖励函数,我们提出了一种具有强公理保证的学习奖励函数的创新规则,利用线性社会选择的新范式限制了可行规则空间。
- 基于物理的微观图像分析与奖励驱动
基于奖励函数和贝叶斯优化的方法用于动态优化图像分析工作流程,并与经典的深度卷积神经网络(DCNN)分割进行对比,结果表明在附加噪声的情况下,经过优化的拉普拉斯 - 高斯(LoG*)方法与 DCNN 具有可比性,提供实时优化复杂分析工作流程的 - 自主驾驶背景下的强化学习奖励函数综述
该论文综述了强化学习在自动驾驶中的应用,讨论了奖励函数的设计挑战、不足之处以及未来可能的研究方向。
- 从次优演示中学习奖励的应用于外科电凝
通过学习演示(LfD)技术实现自动化机器人手术非常具有挑战性,本文介绍了一种从有限数量的次优演示中学习强健奖励函数的方法,并通过强化学习(RL)优化学习到的奖励函数来学习策略。通过在一个物理手术电刀任务上应用我们的方法,我们证明了即使提供的 - 改进的多臂赌博机问题的近乎紧密逼近保证
我们对改进的多臂赌博机问题给出了近似最优的上下界。我们证明了对于任何随机在线算法,存在一个实例使其相对于最优收益至少有一个 Ω(√k) 的近似因子。然后,我们提供了一个随机在线算法,在事先告知最优臂可达到的最大收益的情况下,保证了一个 O - 在线根据离线偏好进行政策学习
通过整合离线偏好和虚拟偏好,将离线数据和学习代理的行为进行比较,从而加强了基于偏好的强化学习中的奖励函数对代理行为的指导,提高了其泛化能力。
- 复杂航天器任务的屏蔽深度强化学习
通过使用线性时态逻辑(LTL)来形式化航天器任务和安全需求,以构建奖励函数和确保概率保障的盾牌,本论文研究了自主航天器控制和 SDRL 框架下的任务定义、安全性以及奖励结构的灵活性。
- 连续零均值争议正则化仿真学习 (CMZ-DRIL)
用连续的、均值为零的奖励函数通过模拟专家展示学习的方法,在有限的专家演示情况下提高模仿学习代理的性能。
- 反馈高效在线微调扩散模型
提出了一种新颖的强化学习算法,可有效地在可行样本的流形上进行探索,并通过对图像、生物序列和分子三个领域的理论分析和实证验证提供了一种后悔保证.
- Q-Probe: 语言模型奖励最大化的轻量级方法
使用一种称为 Q-probing 的方法,适应预训练语言模型以最大化任务特定的奖励函数,并通过学习模型嵌入空间上的简单线性函数来重新加权候选完成,从而获得在基于地面真实奖励(代码生成)和偏好数据定义的隐式奖励的领域中的增益。
- 常识奖励的多任务逆强化学习
通过将奖励分解为两个不同的部分,即任务特定奖励和常识奖励,并探讨后者如何从专家示范中学习,我们解决了在复杂真实环境中应用强化学习所存在的奖励功能不准确所导致的问题,并证明通过多任务逆向强化学习能够学习到一个有用的奖励函数。
- 基于探索驱动的强化学习策略优化在 RLHF 中的理论洞察:高效数据利用
基于人类反馈的强化学习 (RLHF) 在仅依赖少量人类反馈的情况下取得了令人瞩目的实证成功。本文提出了一种基于策略优化的 RLHF 算法 (PO-RLHF),该算法不假设对奖励函数有先验知识,并通过基于轨迹的比较反馈来推断奖励函数。我们提供 - 用于带有二次奖励的强化学习的稳态误差补偿
该研究提出了一种在强化学习中选择奖励函数的方法,通过将积分项引入二次型奖励函数中,使得强化学习算法在考虑长期奖励的同时,有效减小稳态误差并实现系统状态的平稳变化。
- 辅助奖励生成与过渡距离表示学习
通过度量状态之间的转换距离,我们提出了一种新颖的表示学习方法,用于自动生成辅助奖励,以促进增强学习的效率和收敛稳定性。
- ICLRSEABO: 离线模仿学习的简单基于搜索的方法
通过基于专家数据和未标记数据的简单有效的基于搜索的离线模仿学习方法 SEABO 来获取奖励函数,SEABO 可在只有一个专家轨迹的情况下取得与带有真实奖励的离线强化学习算法相竞争的性能,并在许多任务中优于先前的奖励学习和离线模仿学习方法。
- 突破极限:重塑强化学习中的奖励
强化学习中,选择好的奖励函数是一个重要且具有挑战性的问题。本文提出了一种使用最大奖励而不是累积奖励的算法,适用于确定性和随机环境,并将其与现有的强化学习算法相结合。在实验中,我们研究了该算法在两个目标达成环境中的性能,并证明了其相对于标准强 - RadDQN: 基于深度 Q 学习的最小辐射暴露路径发现架构
近期深度强化学习技术在自动化领域引起了广泛关注,本文介绍了一种基于深度 Q - 学习的架构(RadDQN),该架构利用感知辐射的奖励函数,为辐射区域提供了时间高效的最小辐射暴露路径,并通过一套独特的探索策略进行优化。与基准方法相比,我们的模