上下文化混合集成 Q 学习：以控制先验快速学习

Jun, 2024

上下文化混合集成 Q 学习：以控制先验快速学习

Contextualized Hybrid Ensemble Q-learning: Learning Fast with Control Priors

Emma Cramer, Bernd Frauenknecht, Ramil Sabirov, Sebastian Trimpe

TL;DR结合强化学习和先验控制器可以获得两个世界中的最佳结果：强化学习可以解决复杂的非线性问题，而控制器可以确保更安全的探索和加快训练。本文提出了一种新的自适应混合强化学习算法，通过动态调整加权来适应强化学习代理当前的能力，从而提高数据效率、探索安全性和对未知场景的可迁移性。

Abstract

Combining reinforcement learning (RL) with a prior controller can yield the best out of two worlds: RL can solve complex nonlinear problems, while the control prior ensures safer exploration and speeds up trainin

reinforcement learning prior controller adaptive strategy hybrid rl algorithm data efficiency

发现论文，激发创造

多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化

提出了一种新颖的模型无关的集合强化学习算法，通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法，并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出，获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比，数值实验结果显示，该算法平均策略误差可以减少高达 55％，运行时复杂度可以减少高达 50％，并验证了理论分析中的假设。

Feb, 2024

基于数据驱动的实时高效强化学习算法的 H∞控制：应用于自动化移动出行系统

基于 Q 学习的算法解决线性离散时间系统的 H∞控制，并实现了模型无关的参数在线学习，从而将计算复杂性降低到 qu 的平方，其中 q 是状态变量、控制输入和干扰大小之和。

Sep, 2023

基于滞后效应的强化学习：通过混合控制增强强化学习控制策略的稳健性

提出了一种名为 Hysteresis-Based RL（HyRL）的混合算法，通过在现有 RL 算法中增加滞后开关和两个学习阶段提高了算法的稳健性，并在 PPO 和 DQN 无法处理的两个问题中说明了其性质。

Apr, 2022

基于神经分类先验的基于物理的角色控制

提出了一种新的学习框架，利用离散信息瓶颈和强化学习来控制基于物理的角色，从而实现显著改善运动质量和多样性。

Aug, 2023

强化学习方法将压缩上下文整合到知识图谱中

该研究提出了一种基于强化学习的方法，利用深度 Q 网络增强知识图谱中上下文信息的整合过程。实验结果表明，该方法在不同的标准知识图谱数据集上优于传统技术，准确实现了上下文整合，凸显了强化学习在增强和管理知识图谱方面的潜力和有效性。

Apr, 2024

控制置信成本

我们开发了一种考虑推断计算成本的随机控制方法，结合了有效编码和高效控制的概念。研究发现，代理人通过在后验概率相对精度上增加内部成本来权衡总效用和任务性能，从而实现有效控制。通过研究线性二次高斯控制，我们发现代理人在不同任务需求下转换为一系列与旋转变换相关的次最优推断策略，每个策略都对世界的稳定性估计存在误差。这项工作为大脑和机器在高效但受计算限制的控制方面提供了新的合理计算基础。

Jun, 2024

基于 VQC 的数据重上传强化学习：性能和可训练性

基于经验证据，本研究使用变分量子电路 (VQC) 作为函数逼近器构建了深度 Q - 学习模型，研究了该模型在经典控制基准环境中的性能和可训练性，探讨了数据重新上传对这些指标的影响，并发现 VQC 在这种环境中具有适用性，且在逼近 2 设计时，增加量子比特数不会导致梯度的幅度和方差指数级递减。

Jan, 2024

通过深度强化学习实现通用量子控制

提出一种新的量子控制框架，通过在强化学习智能体的训练环境中加入控制噪声，利用强化学习技术优化量子计算的速度和保真度以及对泄漏和随机控制误差的抗扰性，最终取得了一定的优化成果。

Mar, 2018

强化学习辅助的量子优化

我们提出了一个基于强化学习的算法，用于量子近似优化算法（QAOA）内的量子反馈控制，能够基于局部信息选择控制参数，并实现了训练数据的小样本转移学习。

Apr, 2020

量子优势演员 - 评论家强化学习

本研究提出一种新颖的量子强化学习方法，将优势演员 - 评论家算法与变分量子电路结合，通过替代部分经典组件解决了强化学习可扩展性方面的问题，同时保持了较高性能。通过实证测试多种量子优势演员 - 评论家配置与知名的倒立摆环境，我们的结果表明，使用量子演员或量子评论家与经典后处理的混合策略相比具有类似参数数量的纯经典或纯量子变体，可以显著提高性能。结果进一步揭示了当前量子方法的局限性，指出了嘈杂中尺度量子计算机硬件约束的进一步研究，以扩展更大更复杂的控制任务的混合方法。

Jan, 2024