- 超越人类偏好:通过 LLMs 探索强化学习轨迹的评估与改进
基于偏好的强化学习利用大型语言模型生成自动偏好数据,并通过重构奖励函数来优化强化学习训练,在复杂环境中加速收敛并提高效果。
- 结合超参数自动优化和奖励形状
深度强化学习在过去几年取得了显著进展,但是即使对于专家来说,找到适当的超参数配置和奖励函数仍然具有挑战性并且性能严重依赖于这些设计选择,因此我们提出了一种方法来同时优化超参数和奖励函数,实验证明综合优化可以显著改善性能,在一些环境中比基准性 - REvolve: 大型语言模型在自动驾驶中的奖励进化
利用大型语言模型来设计人类对鼓励功能的反馈机制,从而更好地训练自主驾驶系统。
- ICML实用特征偏好:从人类输入中学习与奖励相关的偏好
通过研究人类社会学习观点,将社会背景纳入考虑,并提出了一种从用户特征层次偏好中学习更精确奖励模型的方法,结果表明这种方法能够更高效地与用户对齐并获得准确的奖励。
- 如何展现更可预测的行为
该论文研究了可预测性问题,考虑了环境动态和观察到的 agent 策略的不确定性,通过引入观察者感知的马尔可夫决策过程框架,提出了基于观察者对 agent 策略的信念构建的奖励函数,分析并证明了由这些奖励函数导出的可预测性马尔可夫决策过程可以 - LORD: 基于大型模型的自动驾驶相反奖励设计
通过对不希望出现的语言目标进行建模,将大型预训练模型用作零射击奖励模型,从而提高自主驾驶的安全性和性能。
- TractOracle: 为基于强化学习的径迹重建术提供解剖学导向的奖励函数
该研究提出了一种基于强化学习的 TractOracle 系统,通过训练基于分类的奖励网络,既作为训练的奖励函数,也用于提前停止跟踪过程,从而减少虚假阳性的轨迹,从而实现了对白质纤维束轨迹的同时评估和重建,取得了近 20%的真阳性比例提高和 - 逆向强化学习的自动特征选择
逆向强化学习是一种从专家示范中学习奖励函数的模仿学习方法,通过使用线性组合特征表示奖励,借助多项式基函数形成特征候选集来解决连续状态空间中特征选择的问题,并利用轨迹概率与特征期望之间的关联对特征进行选择,实验表明该方法能够恢复捕获专家策略的 - 深度强化学习中可转换的高斯奖励函数对于具有社交意识的导航
机器人导航已从优先考虑避障转向采用能够适应人类存在的社交化导航策略,这导致社交化导航在机器人领域内具有显著地位。我们介绍并验证了可变高斯奖励函数(TGRF),该函数显著减轻了超参数调整的负担,在各种奖励函数中具备适应性,并在深度强化学习中展 - MORL-Prompt: 多目标强化学习离散问题优化的实证分析
基于强化学习的离散提示优化中,多目标方法直接优化体积效果更好,并且能够在所有奖励之间实现更好的平衡。
- 强化学习中奖励函数的信息性
设计具有信息量的奖励函数以加速学习代理的收敛,并通过提出一种新的奖励信息量准则来适应性地设计代理奖励。实验证明了提出的奖励信息量准则在自适应设计代理奖励方面的有效性。
- 带干扰的多臂赌博机
在当代在线平台中,干扰实验面临重大挑战。本研究介绍了具有干扰的多臂赌博机问题,应用集群随机化策略来达到最优期望后悔值,并得出高概率边界与实验单元数 N 无关。
- 朝着具有社会和道德意识的强化学习智能体:利用 LLM 进行奖励设计
通过利用大规模语言模型(LLM)对道德和社会规范的理解,本研究评估了语言模型作为直接奖励信号的能力,并通过与人类反馈对比来展示语言模型的结果。
- 药物设计的奖励函数配置自动化
设计奖励函数以引导生成分子设计算法到化学空间中的可取区域对于基于人工智能的药物发现至关重要。我们提出了一种基于实验数据的自动奖励配置方法,通过构建基于帕累托优势的实验数据排序,并训练神经网络以近似奖励函数,使得预测奖励相关的排序与基于帕累托 - 个性化路径补权
论文介绍了个性化路径补救(Personalized Path Recourse)这一新方法,旨在为代理生成补救路径,以实现期望的目标并保持与代理原始路径的高相似性,并根据代理的观察行为模式个性化定制新路径。该方法适用于纠正或改进行动或数据序 - 视觉语言模型作为奖励的来源
使用视觉 - 语言模型(VLMs)作为强化学习代理的奖励来源的可行性研究,展示了从 CLIP 模型家族中得到各种语言目标的视觉成就奖励,并用于训练能够实现各种语言目标的 RL 代理,通过两个不同的视觉领域展示了这种方法,并呈现了更大的 VL - 反向强化学习是否比标准强化学习更困难?
逆强化学习(IRL)是学习奖励函数的问题,该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果,包括离线和在线设置,使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法 - CLIP-Motion:使用连续观测学习机器人动作的奖励函数
利用基于 CLIP 的模型学习机器人运动的奖励函数的新方法,回避了传统奖励函数设计中的挑战,通过利用 CLIP 处理状态特征和图像输入的能力,准确识别连续观察之间的运动并增强机器人领域的强化学习培训。
- 高效广义低秩张量内容自助机
本文提出了一种新颖的多维数据和奖励函数非线性性能充分发挥的强大 Bandits 算法,引入了广义低秩张量上下文 Bandits 模型进行决策服务,并证明其优于向量化和矩阵化情况的后悔界。通过一系列仿真和真实数据实验验证了该算法的有效性,充分 - 异步人类反馈下的自主机器人强化学习
实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战,但本研究描述了一个实际的强化学习系统,通过在真实环境中进行训练,并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下,通过自我监督学习算法和人类反馈产生