- 关于连接型 MDP 中价值迭代的收敛性
该论文证明,具有唯一最优策略和符合遍历性条件的转移矩阵的 MDP 可以保证各种版本的值迭代算法以超过折扣因子 γ 的几何速度收敛,适用于折扣和平均奖励标准。
- 什么时候进行感知和控制?一种适应时间的连续时间强化学习方法
优化系统学习离散时间决策进程的强化学习算法,以减少与系统的交互次数并提高性能,同时提出了时间自适应控制和感知(TaCoS)框架以及 OTaCoS 模型算法。
- 基于语义感知的多个马尔可夫源在约束下的远程估计
该研究利用平均成本约束马尔可夫决策过程理论和 Lagrangian 动态规划,探索了在有损且受速率限制的通道上进行多个马尔可夫源的远程估计的语义感知通信;通过使用结构优化结果和开发新的策略搜索算法,可以最小化长期状态依赖成本和估计误差;为了 - ICLR从视频中实现强化学习的原则性表示学习
研究使用视频数据进行决策预训练表示学习,讨论两种情景:观察中的独立同分布噪声和存在外部噪声的困难情景,验证了在不同情境中学习表征方法的样本复杂度和性能表现。
- 基于贝叶斯框架的深度强化学习在联合 O-RAN/MEC 协同管理中的应用
提出了一种基于贝叶斯深度强化学习框架的联合 O-RAN/MEC 编排,用于控制 O-RAN 功能分割、分配资源和主机位置、O-RAN/MEC 数据流的路由,以最小化长期网络操作成本并最大化 MEC 性能指标。
- 基于区间的平均奖励 MDP 的最优样本复杂度
我们研究了一个基于生成模型的平均回报马尔科夫决策过程(MDP)中学习一个 ε- 最优策略的样本复杂度,建立了复杂度界限 Ω(SA (H/ε^2))。我们的结果在参数 S、A、H 和 ε 上是极小极大最优的(最多有对数系数),进一步改进了现有 - 具有可证明保证的非线性多目标强化学习
RA-E3 是一个算法,能够解决单目标或多目标的马尔可夫决策过程中的奖励积累函数期望值最大化问题,并且可以用于多目标强化学习中的公平感知、风险感知以及以非线性 Von Neumann-Morgenstern 效用函数进行的单目标强化学习。该 - 深度 MDP:多目标跟踪的模块化框架
该研究论文介绍了一种基于马尔可夫决策过程(MDP)的快速模块化多目标跟踪框架,可用于各种应用领域,并提供了一个交互式 GUI,集成了目标检测、分割、多目标跟踪和半自动标注等功能,以帮助使用者更容易入门。虽然在性能方面没有突破性的进展,但 D - 抵御预训练语言模型作为小样本学习器的后门攻击
该研究重点探讨了预训练语言模型(PLMs)作为少样本学习器的安全风险,并提出了一种轻量、可插拔且有效的防御方案 MDP,利用掩码灵敏度的差异比较样本的表示,从而鉴别出有显著变化的被污染样本。经实验证明,MDP 在基准数据集和典型攻击上具有较 - 对比例子为基础的控制
基于示例的学习方法提出了一种离线控制方法,该方法学习了一个隐式模型来表示多步转变的 Q 值,并在状态和图像离线控制任务中优于基准方法并展现了对数据集规模的提升和鲁棒性。
- 欧几里德对称性在强化学习和规划中可行吗?
该研究论文探讨了改进机器人任务中有对称性的强化学习和规划算法的设计,算法在处理具有欧几里德群对称性的问题时表现出更好的性能。
- 折扣正则化的意外后果:提高确定性等价强化学习中的正则化
本文介绍一个基于状态 - 动作对的参数设置方法,用于解决基于折扣因子进行计划的正则化的不足和缺陷,能够更好地适应数据集中状态 - 动作对之间数据数量不平衡的情况。
- 计数无限状态空间马尔可夫决策过程的贝叶斯学习最优策略
该研究提出了一种基于贝叶斯思想和汤普森抽样的算法来解决优化数量可数的马尔可夫决策过程的控制问题,在未知参数和固定先验分布的情况下,能够稳定地获得近似最优解,适用于诸如通信网络和计算系统等不确定动力系统以及一些数量可数的排队模型。
- 动态动作空间强化学习中的行动捕捉
提出了一种智能的 Action Pick-up 算法,用于从新的和未知的动作中自主选择最有可能提高性能的有价值的动作,它利用之前的最优策略提供有用的知识和经验,具有比基线更优的学习效率。
- 在对抗环境中规划攻击者困境
本文提出了一种规划框架,以生成一种防御策略,旨在针对在保卫者能够在攻击者不知情的情况下运作的环境中工作的攻击者。防御者的目标是将攻击者促使进入困境状态,从而无法实现其目标;同时,防御者被限制在 K 个步骤内实现其目标,其中 K 被计算为一种 - 在具有不完全可达目标偏好的随机系统中的机会定性规划
本文研究在随机系统中如何综合具有时间扩展目标的偏好满足规划,并提出了安全和积极改进(SPI)和安全几乎肯定改进(SASI)两种解决方案概念以保证改进,并展示了用于合成 SPI 和 SASI 策略的算法。
- 基于线性函数逼近的无奖励强化学习中的近最优部署效率
研究如何在施加 “无回报探索” 的情况下,使用线性函数逼近在提高效率时落地实施策略,最后我们提出了一种新算法,只需在 H 次部署中收集最多 O (~d²H⁵/ε²) 的轨迹,在不同的奖励函数设定下,即可找到一个 ε- 最优策略,并且在样本复 - 合作通信的语义时代:通过离线强化学习加速模拟以接近真实
提出一种称为 AoS 的信令更新语义新鲜度的度量方式,针对节点更新源和目的地之间的状态更新的最优控制策略进行研究,提出了在线和离线的深度演员 - 评论家算法,离线算法在数据集质量方面表现出强大的鲁棒性。
- 组合强化学习的范畴语义
本文利用分类学的方法,构建了一个强化学习的可组合性框架,研究了分解问题为子任务并在这些任务上运用学习策略的方法。文章针对贝尔曼最优方程而研究在组合模型下的可行性,探讨使用一些纤维积和推出操作使得组合现象更明显,并且通过引入的 zig-zag - 使用隐马尔可夫模型的自动机学习任务自动化增强学习
该论文提出了一种从代理环境经验中学习非马尔可夫任务规范的新方法,可以将任务拆分为其构成子任务,提高了 RL 代理后续合成最优策略的速率,并提供了一个可解释的编码高级环境和任务特征的方式。