- AI 通过逆向强化学习隐式学习人类价值体系的文化敏感道德机器
使用逆强化学习作为方法,使得人工智能代理人能够基于人类观察和互动隐式地获得文化敏感的价值观体系。通过在线虚拟世界中观察不同文化群体的行为,我们的实验结果显示出代理人能够通过学习特定文化群体的行为获得反映该群体行为的利他特征,且这一学习到的价 - 基于结构风险最小化的未知奖励模型的逆强化学习
通过引入结构风险最小化方法,本文解决了逆强化学习模型选择中的权衡问题,以估计误差和模型复杂度为目标,选择最佳的奖励函数类别。具体实施的结构风险最小化包括估计策略梯度和建立模型惩罚的 Rademacher 复杂度的上界。通过模拟实验验证了该方 - 朝着计算高效的逆强化学习方向进发:通过奖励塑形
逆向强化学习是具有计算挑战性的,常见方法需要解决多个强化学习子问题。本研究激励使用基于潜力的奖励塑造来减轻每个强化学习子问题的计算负担,并希望能激发未来对计算效率高的逆向强化学习的发展。
- 反向强化学习是否比标准强化学习更困难?
逆强化学习(IRL)是学习奖励函数的问题,该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果,包括离线和在线设置,使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法 - 多意图逆向强化学习:用于动物行为特征化
引入了新的动物行为预测模型 —— 潜在(马尔可夫)变量逆 Q 学习(L (M) V-IQL)算法,通过解决离散内在奖励的问题,通过对每个独立解决 IRL 问题的解决 IRL 问题的方法来改进动物行为预测,超过现有基准,产生可解释的奖励函数, - 基于聚合数据的对抗性模仿学习
通过使用聚合数据上的对抗性模仿学习,我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法,可以同时学习非线性奖励函数和相关的最优策略,并且生 - 逆强化学习的新型变分下界
逆向强化学习通过学习专家轨迹的奖励函数,理解模仿或协作任务,从而消除手动奖励设计的需要。本文提出了一种新的变分下界的逆向强化学习方法 (VLB-IRL),通过最大化下界相当于最小化近似分布和真实分布之间的逆 Kullback-Leibler - 概念对齐作为价值对齐的前提条件
人工智能系统与人进行安全可靠互动所必需的价值对齐依赖于概念对齐,即代理需要与人类相互对齐,以在情境中成功对齐其价值观。本研究通过对逆强化学习环境中的概念对齐问题进行正式分析,并描述了一种有助于减少价值观不对齐的方法,该方法通过同时推理一个人 - 逆强化学习中通过最优传输理论理解奖励模糊性
该论文利用最优传输理论(OT)提供了一个新的视角,通过利用最优传输中的 Wasserstein 距离,建立了一个几何框架,可以量化奖励的模糊性,并确定奖励函数的中心表示或重心,为几何解释锚定的稳健逆 RL 方法提供了结构化的方法来解决高维奖 - 基于距离 - 排序的序贯奖励学习的次优示教的逆强化学习
我们引入了 DRASRL 框架,该框架考虑了路径排序和路径之间的差异度,通过测量轨迹生成的策略之间的距离来消除奖励的歧义,同时利用对比学习技术来推断表示空间中的嵌入,结合成对排序损失函数将排序信息纳入到潜在特征中,并采用 Transform - ICLR基于观察的模仿学习与自动折扣调度
通过自动折扣调度的机制适应性地改变强化学习的折扣系数,我们提出了一种新颖的观察学习框架,使得代理能够在掌握较早行为之后再逐步转向后续行为,并通过在九个 Meta-World 任务上的实验证明该方法在所有任务中明显优于现有方法。
- 有限反馈下交互式教授逆强化学习器
我们研究了在顺序决策任务中通过示范进行教学的问题,特别关注教师无法访问学习者的模型和策略,仅有由教师选择的起始状态的轨迹作为反馈的情况。我们通过有限反馈的教学过程进行形式化,并提出了解决该教学问题的算法。该算法使用了改进的主动风险价值法来选 - 从多任务演示中学习共享安全约束
从专家演示的安全任务完成中学习约束条件的方法扩展了逆强化学习(IRL)技术到约束空间,通过利用多任务环境中自然发生的各种演示来学习更紧密的约束条件。
- 逆向强化学习分析宣传战略:来自 2022 年俄罗斯对乌克兰的入侵的证据
通过逆强化学习方法研究了 2022 年俄罗斯入侵乌克兰的宣传策略,发现社交媒体上的在线讨论对俄罗斯宣传的传播起到战略性作用。
- 逆强化学习有效视野
本研究分析了逆强化学习的时间跨度对于奖励估计准确性和计算效率的影响,并提出了使用更短的时间跨度可以更快地产生更好结果的解释。此研究还提出了在逆强化学习中一起学习奖励和有效时间跨度比独立学习奖励更为自然的看法。实验结果证实了理论分析。
- FP-IRL:基于 Fokker-Planck 的逆强化学习 —— 物理约束的马尔科夫决策过程方法
提出了一种基于 Fokker-Planck(FP)方程的新型物理意识逆强化学习算法 FP-IRL,可以同时推断转移和奖励函数,无需事先估计转移动态,适用于转移函数不可访问的情况
- 逆强化学习的课程子目标
本研究提出了一种基于课程子目标的反向强化学习框架,通过动态选择子目标来引导智能体的学习,在 D4RL 和自动驾驶基准测试中实现了优于现有方法的结果与更好的可解释性。
- PAGAR:带有主角 - 反角引导的对抗性奖励的模仿学习
本文提出 PAGAR,这是一种用于设计策略训练奖励的半监督学习范例,该算法采用迭代对抗搜索奖励函数,以最大化主角策略和反派策略之间的性能差距,并保证训练出的策略在底层任务中成功执行。实验结果表明,与现有的基于 IL / IRL 的算法相比, - 从扩散模型中提取奖励函数
本文提出使用扩散模型和奖励函数相结合的方式,在序列化决策任务中实现高效决策,使用神经网络参数化奖励函数,能够提高机器人的运动性能,并且可以推广到图像生成领域。
- ICML约束反向强化学习中的可辨识性和泛化性
研究提出了一种强化学习的理论框架,旨在解决设计适当的奖励函数和保证学习策略的安全性两大挑战。文章从凸解析角度扩展了奖励可识别性和泛化性等方面的研究,并在约束马尔可夫决策过程中证明了真实奖励需要在常数范围内确定才能确保泛化到新的转移模型和约束