- 超越乐观:具有部分可观察奖励的探索
通过提出一种新的探索策略,克服现有方法的局限性,即使奖励不总是可观察到,也能保证收敛到最佳策略。我们还提出了一系列用于在强化学习中进行探索的表格环境(有或没有不可观察的奖励),并展示我们的方法优于现有方法。
- 具有个性化奖励的可证明高效的交互式根植学习
通过与环境进行交互并观察依赖奖励的反馈,互动地接触学习(IGL)是一个强大的框架,该框架中学习者通过最大化无法观察的奖励来改进。我们研究了个性化奖励问题,并提出了第一个在实现性条件下能够证明高效的算法。通过分析,我们发现先前工作的阶跃函数估 - 开放环境中的持续演化奖励
在复杂的现实环境中,准确识别驱动实体行为的奖励是困难的,特别在环境改变时,由于目标和相关行为在内生地出现并动态更新。本文通过学习和期望的方式考察了一种用于动态更新奖励的候选算法 RULE。通过在简化的生态系统模拟实验中测试,该方法成功模拟了 - 监控的马尔可夫决策过程
在本文中,我们提出了一种新的强化学习框架 - 监控马尔可夫决策过程(Monitored MDPs),该框架解决了强化学习中奖励无法被完全观测到的问题,并讨论了该设置的理论和实践后果,提出了相应的算法。
- 思考的不确定性:不确定性感知规划增强大型语言模型中的信息搜索
通过模拟、激励和奖励机制,引入了一种名为不确定性思考(UoT)的算法来提高大型语言模型在主动寻求信息方面的能力。在医学诊断、故障排除和 '20 个问题 ' 游戏的实验中,UoT 相较于直接提示的方式,在成功完成任务的速度上平均提高了 57. - 混淆预算因果强化学习
我们研究了在由基础因果图模拟的随机环境中学习 ' 好的 ' 干预的问题,其中 ' 好的 ' 干预是指最大化奖励的干预,在预定的预算限制下考虑非均匀成本的干预,我们提出了一种算法以在一般因果图中最小化累积遗憾,并开发了一种算法以在预算设置下最 - 信号时态逻辑导引的学徒学习
通过将描述高层任务目标的时间逻辑规范编码为图形来定义基于时间的度量,以改进推断奖励和策略的质量,实验表明我们的框架通过极大地提高学习控制策略所需的演示数量,克服了之前文献的缺点。
- 对抗性批量逆强化学习:从不完美的演示中学习奖励,用于交互式推荐
在本研究中,我们提出了一种新颖的批量逆向强化学习模型,通过使用折扣的稳态分布修正结合学习奖励 (LTR) 和推荐代理评估,同时满足组合要求,并通过贝尔曼转化和 KL 正则化来改进效果和效率。
- 你在意什么?致力于机器人学习的视觉表征对齐
通过人类反馈,提出了一种用于解决视觉表征对齐问题和视觉奖励学习问题的方法:表示对齐的基于偏好的学习(RAPL)。在 X-MAGICAL 和机器人操纵的实验中,RAPL 的奖励 consistently 生成高样本效率的优选机器人行为,并在视 - 语言、时间偏好与消费行为:基于大型语言模型的证据
本研究分析了 GPT-3.5 在多种语言中对奖励和时间的偏好,发现当以德语和汉语等未来时态参照性较弱的语言提问时,GPT 表现出更高的耐心,并且发现虽然 GPT 可以捕捉到跨语言的变异,但它们所做出的选择并不符合人类决策者的选择。
- IJCAI调和奖励与预测状态表示
描述了一种可准确模拟 POMDP 奖励并且能够用于控制、规划或强化学习的预测状态表示 (R-PSR) 方法,通过 R-PSR 准确模拟 POMDP 观察和奖励之间的关系,展示了与近似奖励导出的最优 PSR 策略与最优 POMDP 策略之间的 - 使用顺序奖励交互的对比评估编号推荐
该研究提出了一种图形假设的因果关系方法,以重新加权日志策略中的奖励,从而近似于目标策略下的奖励和,以解决串行互动推荐问题。在模拟和实际推荐系统中进行的广泛实验表明,该方法在偏差和数据效率方面优于现有方法。
- 前向 - 后向强化学习
通过训练一个模型来从已知的目标状态开始进行逆向预测,将强化学习中的目标函数引入到代理中,从而加速训练过程,并在 Gridworld 和汉诺塔游戏中进行了实验验证。
- 恒定空间中的随机多臂老虎机
研究如何在有空间限制的情况下,解决随机赌博机问题,给出了一种算法,可以在 $O (1)$ 的空间使用下,通过对奖励差距的对数求和来减少遗憾,同时保持接近最优的解决方案。