- 通过对抗性行为来抑制 Q 学习中的过高估计
通过引入虚拟对手行为的虚拟对手 Q 学习(DAQ)算法,该论文旨在解决标准 Q 学习中过高估计偏差的问题,将学习过程建模为一个双人零和博弈,并统一了几种控制过高估计偏差的 Q 学习变体。通过将 DAQ 应用于现成的强化学习算法,可以简单有效 - 基于数据驱动的实时高效强化学习算法的 H∞控制:应用于自动化移动出行系统
基于 Q 学习的算法解决线性离散时间系统的 H∞控制,并实现了模型无关的参数在线学习,从而将计算复杂性降低到 qu 的平方,其中 q 是状态变量、控制输入和干扰大小之和。
- 使用强化学习规划具有悬臂机器人的无人机执行器轨迹
我们研究了一种空中操纵系统,即装备有可控制自由度的无人机 (UAV) 和机械臂来进行飞行实施任务,该解决方案基于采用 Q 学习方法来控制机械臂末端即末端执行器的轨迹,并采用基于时间碰撞 (TTC) 的运动规划模型,在确保机械臂可达性的同时, - 奶牛养殖中的电池管理强化学习
本研究利用 Q 学习在奶牛养殖场景中学习了一种有效的电池充放电策略,结果显示与基准算法相比,该策略显著降低了电费,突出了奶牛养殖业中强化学习在电池管理方面的有效性。
- 经典强化学习与深度强化学习方法在暖通空调控制中的比较
强化学习在优化暖通空调系统控制方面具有良好前景,提高系统性能、降低能耗、增强成本效益。我们对比了两种常用的经典强化学习方法(Q - 学习和深度 Q - 网络)在多个暖通空调环境下进行了基准测试,并探讨了模型超参数选择和奖励调节的实际考虑。研 - 二十一点游戏中强化学习表现的变化
通过对 deck size 的影响,我们研究了黑杰克游戏中最佳策略和 q 学习算法的学习收敛速度。
- 异步分散式 Q-Learning: 持久性的两时间尺度分析
这篇研究论文探讨了多智能体强化学习中的非静态挑战,介绍了一种异步变种的分散式 Q 学习算法,并提供了使异步算法以高概率驱动到均衡的充分条件。它还将该算法及其相关方法的适用性扩展到参数独立选择的环境,并在不强加协调假设的情况下驯服了非静态挑战 - Q-learning 设计与乐观性的稳定性
该论文介绍了 Q-learning 在强化学习工具中的重要性,提供了随机逼近和 Q-learning 的教程,并介绍了确保算法稳定性和加速收敛的新方法。其中两个新的贡献是解决了 Q-learning 中线性函数逼近的稳定性问题,以及设计了一 - 多元投资组合交易强化学习技术评估
这项研究探讨了利用强化学习在 S&P 500 指数上进行交易的可行性,并采用了 Value Iteration (VI)、State-action-reward-state-action (SARSA) 的在线策略和 Q-Learning - McKean-Vlasov 控制问题的连续时间 q 学习
本文研究连续时间 McKean-Vlasov 控制问题中的 q-learning 方法,探究了其定义及两种不同的 q 函数,提出了相应的学习算法,并在金融应用中进行了模拟实验。
- 自适应集成 Q - 学习:通过误差反馈减小估计偏差
通过测试发现 Adaptive Ensemble Q-learning(AdaEQ)集成模型在 MuJoCo 基准测试中能够提高学习性能,该模型结合了模型识别自适应控制(MIAC)来实现有效的集成尺寸自适应,并通过逼近误差表征来灵活控制集成 - 消失偏差启发式引导的强化学习算法
本研究在月球着陆环境中研究了强化学习的经典方法及基于神经网络的方法,并提出了一种名为 Heuristic RL 的新算法,通过引入启发式技巧来指导早期阶段的训练,同时减轻人为偏见的影响。实验结果表明,我们提出的方法在月球着陆环境中表现出良好 - 两人零和马尔可夫博弈的极小极大 Q - 学习的有限时间分析:切换系统方法
本文旨在研究应用于两人零和马尔科夫博弈中的 Q-learning 算法的有限时间分析。
- 通过多次重复采样,离线强化学习算法在连续控制中具有高样本效率
该论文提出了一种基于 SMR(样本多次重用)的强化学习方法,通过多次重复使用样本,可以在单次优化循环中更好地利用它们,从而显著提高了基本方法的样本效率。
- 基于奖励机制的强化学习在随机博弈中的应用
本文探讨了利用奖励机制来实现高级任务的多智能体强化学习算法 QRM-SG,能在 Nash 平衡下在多智能体系统中学习最优策略,并且在三个案例研究中证明了其有效性。
- 基于 Q 的均衡
本文研究了一类基于 Q 学习的策略规则,在不同的监控技术下,寻找平衡偏差以及如何将偏好修正到 Q 值中,以实现更有效的合作和均衡策略。
- 一种 Q 学习算法在制造装配问题中的应用研究
本研究利用强化学习算法在给定对象的装配问题中实现了 Q-Learning 算法,通过学习与环境的交互来推荐装配序列解决方案,并通过三个场景的探索来评估强化学习代理的性能,实现了优化装配过程时间并在 98.3% 的时间内得出最佳的装配序列解决 - 随机博弈的高效 Q 学习
本文提出了新的高效 Q 学习动态应用于随机博弈,使智能体能够遵循阶段游戏中的对数线性学习动态,通过逐步迭代估计 Q 函数,实现高效平衡,并通过逐渐减小步长的方式使其收敛,同时还研究了 softmax 响应在此过程中产生的近似误差。
- 无人机和船只的合作:针对不确定的海上任务的计算卸载
本文提出了一种合作卸载框架,通过船舶和无人机协作来处理海事任务卸载问题,并使用马尔科夫决策过程来最小化总执行时间和能源成本,通过 Lyapunov 优化将长期限制转化为短期限制,并提出了一种基于 Q-learning 的方法来有效地解决短期 - MACOptions: 集中控制器和选项框架下的多智能体学习
本文介绍了针对多智能体的自动化规划方法,比较了三种不同的方法(随机策略、Q 学习和选项框架下的 Q 学习),并通过对比 Q 学习有无规划器的不同表现来展示规划器的有效性。