- 离线强化学习中的均衡策略切换:切换还是不切换?
采用最优输运的思想,我们对离线强化学习中的政策切换问题进行了系统研究,并设计了一种新颖的切换公式的 Net Actor-Critic 算法,数值实验证实了我们方法在多个 Gymnasium 基准测试上的效率。
- ELA:离线学习中针对零和游戏的利用级别增强
离线学习对于从专家示范者收集的离线数据集中推导出有效策略已经得到广泛使用。本研究引入一种新的方法,使用无监督学习技术估计单一示范者制作的各个轨迹的被利用水平,并将该估计的被利用水平合并到离线学习中,以最大化主导策略的影响。我们的方法在多人零 - 去偏离线表示学习用于快速在线适应非平稳动态
发展能够适应非平稳环境的策略对于现实强化学习应用至关重要。本文介绍了一种名为 DORA 的新方法,通过信息瓶颈原理实现了快速在线自适应,并在实验评估中展示了其在动力学编码和性能方面明显优于现有基线模型。
- 离线强化学习中的泛化缺陷
该研究通过比较在线学习和离线学习等方法的泛化能力,引入离线学习泛化性能评估的新基准,并发现离线学习算法在新环境中的表现不如在线学习算法,而增加数据多样性能够提高离线学习算法在新环境中的性能。
- 学习具有高成本特征的计算效率机器人
我们提出了一种通用的离线学习方法,其中考虑了输入特征的计算成本,通过将成本约束纳入到决策变换器的扩展中,从而在推断过程中限制其成本,使模型能够在每个时间步动态选择最佳输入特征。我们通过 D4RL 基准和类似于视频游戏中的复杂 3D 环境等多 - 基于元学习的自适应概率风电预测方法
通过离线学习和在线学习过程,本文研究了一种自适应概率性风力发电预测方法,该方法在基本预测模型中引入了元学习的内外循环更新,使其具备对不同预测任务(具有不同前导时间或位置的概率性风力发电预测)的优秀适应性。该方法在在线学习阶段与增量学习技术相 - LLQL: 强化学习的逻辑似然 Q-Learning
该研究分析了在线环境和脱机环境中 Bellman 逼近误差的分布特性,并提出了一种新的损失函数 LLoss,其具有更小的方差,并且实验证实了在离线数据集中奖励应该遵循特定分布,这为进一步深入研究提供了有价值的见解。
- 强化学习在针对对手目标下优化信用额度调整
本研究通过强化学习技术,使用离线学习策略,基于历史数据,针对银行问题,寻找最优信用卡额度调整策略,使用双 Q 学习代理可以优于其他策略,生成反映决策复杂性的最优决策策略,通过数据驱动方法而非仅仅依靠专家驱动系统进行决策。
- 模仿学习中的数据质量
本文研究如何定义训练数据集的质量以及如何通过掌握数据质量来解决分布偏移的问题,其中主要包括两个关键性质:行动偏差和转移多样性。探究了这两种关键性质对任务学习的影响,并在实验中对不同来源的数据进行了分析,得出了状态多样性不总是有益的结论,同时 - IQL-TD-MPC:基于隐式 Q - 学习的分层模型预测控制
本文提出了一种基于模型的强化学习算法 IQL-TD-MPC,并通过此算法构建一个层级架构,使用规划生成的意图嵌入来增强任何现成的离线强化学习算法,从而显着提高在 D4RL 基准任务中的性能。
- 离线目标条件强化学习的未见目标泛化必要因素是什么?
本文研究了离线目标导向增强学习算法的越界泛化问题,提出了一种基于加权模仿学习的离线学习算法(GOAT),在 9 项独立同分布任务和 17 项越界任务测试中显著优于现有的算法。
- 一种用于混杂 POMDP 的策略梯度方法
该研究提出了一个新的策略梯度方法,并利用脱机数据建立了一个新的识别结果,解决了条件矩限制,提供了有限样本的非渐变界,最后证明了在某些技术条件下提出的算法的全局收敛性,这是第一份研究脱机设置下的 POMDP 的策略梯度方法的文献。
- 一种离线时序学徒学习框架用于进化奖励函数
本研究提出了一种离线时间感知分层 EM 能量子轨迹的学习框架,以应对医疗保健等人类中心任务中出现的不断变化的奖励函数,实验结果表明 THEMES 可以明显优于竞争的最新基线。
- 离线监督正则化的方式复制人类复杂对话策略
通过离线模仿学习和状态转移信息的利用,结合正则化技巧进行有效地优化,可使模型更好地完成基于对话系统的任务。
- ICLR离线多目标强化学习扩展帕累托高效决策
本文提出了一种新的数据驱动离线 MORL 设置,介绍了专门针对离线设置的数据集 D4MORL,提出了一种基于 Pareto-Efficient Decision Agents 算法的决策代理,这种代理在行为策略上表现十分接近,在适当的情况下 - CAR-DESPOT: 机器人在混杂环境中基于因果推断的在线 POMDP 规划
本文提出了使用因果建模和推理的新型持续时间在线部分可观测树规划器的因果知情扩展,以消除未测量混淆变量所引起的误差。同时,我们提出了一种离线学习因果模型的方法,用于规划。我们在一个具有未观察到混淆因素的玩具问题上评估了我们的方法,并表明所学习 - 使用层次行动探索的深度强化学习实现对话生成
本文提出一种新的双粒度 Q 函数,通过探索最有前途的响应类型来介入采样,从而解决自然语言行动空间巨大所带来的效率问题,在多个设计用于识别人类情感细节的奖励函数中,以离线强化学习的方式学习,我们的算法在实证研究中表现优于基线方法,进一步验证表 - AAAI通过松弛分布匹配实现离线次优演示的模仿学习
本文提出了一种针对少量优秀数据和大量劣质数据的离线模仿学习问题的解决方案,并且采用了一种松弛的 f - 分布来对策略的支持进行规范化,结果表明在六个标准连续控制环境中,相较于最优先的离线模仿学习方法,本文提出的 RelaxDICE 平均性能 - ICLR离线强化学习中无监督数据共享的可证明好处
该研究探究了如何在半监督的情况下,利用无奖励数据进行离线强化学习,并通过提出的 Provable Data Sharing 算法,取得了显著的改善,从而成功地优化了自监督强化学习模型,提高了模型性能。
- 基于通用函数逼近和单策略聚合的可证明高效离线目标条件下强化学习
本文提出了一种新的基于离线数据的强化学习算法,该算法拥有通用函数逼近能力、单策略集中性和统计效率,并且只需要极少的假设前提和计算稳定性。