q-learning algorithm | BriefGPT

关键词q-learning algorithm

搜索结果 - 14

针对 Q 学习者的战略化策略：控制理论方法
本文研究了 Q-learning 算法（一种经典且广泛应用于强化学习的方法）在游戏中受到复杂对手战略操纵的易感性，并量化了战略上熟练的代理人在了解对手的 Q-learning 算法的情况下可以如何利用一个天真的 Q-learner。为达到这
PDF4 months ago
基于覆盖感知和强化学习的高清地图更新服务提升
高清地图技术在自动驾驶中扮演关键角色，本论文提出了一种 Q-learning 算法来优化车载网络和高清地图更新，以解决网络拥塞和服务质量问题，实验结果显示，相较于其他方案，该算法显著提高了高清地图数据的延迟性能。
PDF5 months ago
AAAI我在结束时开启：开放街道倡议的深度强化学习评估
通过将开放街道的选择问题视为强化学习问题，使用回路图神经网络预测车辆碰撞并模拟交通情况，研究表明，基于 Q 学习算法选择开放街道能够使城市更安全和减少交通拥堵。
PDF7 months ago
基于 Q 学习的概率布尔控制网络的最优虚假数据注入攻击
通过采用强化学习方法（特别是 Q-learning 算法），解决了在概率布尔控制网络中，攻击者模型不可知情况下的最优虚假数据注入问题，并提出了一种改进的 QL 算法，能够处理标准 QL 算法无法处理的大规模 PBCNs 并获取最优攻击策略，
PDF7 months ago
基于分布式 Q 学习的多智能体马尔可夫决策过程和满足性准则
本文提出了一种强化学习算法来解决多智能体马尔可夫决策过程 (MMDP)，通过黑韦尔的可接近性定理，目标是将每个智能体的时间平均成本降低到预先指定的特定界限以下。通过在 Q-learning 算法中结合每个智能体成本的加权组合，其中成本是通过
PDF8 months ago
通过强化学习的实时频谱监测 ——Q 学习和启发式方法的比较
本研究比较了线性频率调谐作为启发式方法和来自强化学习领域的 Q-learning 算法这两种不同方法在控制可用接收机资源方面。经过简化的情景测试表明，Q-learning 算法相对于启发式方法具有更高的检测率，同时可以通过参数化实现检测与探
PDFa year ago
使用强化学习调节自主车辆的路径跟踪控制器
本文提出了一种基于强化学习的适应性路径跟踪控制系统，可用于自动驾驶汽车，并使用 Q-Learning 算法进行较小横向和转向轨迹误差的校准。该系统还基于 ROS 桥连接了 CARLA 模拟环境和跟踪器结果。模拟结果表明，本系统能够安全地适应
PDFa year ago
SlateFree: 一种基于模型的分解方法用于带有分段动作的强化学习
提出了一种基于强化学习的新算法 SlateFree，使用 MDP 框架，将大量的物品进行分组，通过 Q-learning 算法进行在线学习，能够有效地解决顺序推荐问题。
PDF2 years ago
利用强化学习创建弱化的抽象棋类游戏智能体技术
本研究介绍了如何使用强化学习模型和 Q 学习算法创建能够学会玩井字游戏、九人跳和玛卡拉棋的人工智能代理，同时还提出了一种制作较弱 AI 代理的方法，并提供了一种比较 AI 代理的方法。
PDF2 years ago
强化学习用于带有动作约束的任务规定
本文运用离散事件系统监控控制理论的概念，提出一种方法用于在有限状态的马尔可夫决策过程中，学习最优控制策略，并利用奖励机器的发展来处理状态限制。通过给定一个例子来阐明其应用性并在此设置中展示了仿真结果。
PDF3 years ago
强化学习下的合作和声誉动态
通过一种强化学习的简单模型，研究发现使用声誉机制可以解决一些协作难题，但是声誉机制本身也会生成两个协调问题，为了缓解这个问题，可以采用固定代理人和内在奖励相结合等简单机制。
PDF3 years ago
基于特征的 Q 学习在双人随机博弈中的应用
提出在给定特征空间中嵌入转移函数的二人零和随机博弈中，通过采样逼近纳什均衡策略的二人 Q-learning 算法，已证明可使用与特征数线性相关的样本大小找到 ε 最优策略；进一步改进算法的样本效率，采用方差约减、单调性保持和双侧策略逼近等技
PDF5 years ago
深度对抗神经网络实现最优和快速实时资源切片
本文提出了一种具有先进的深度弈算法的网络切片方法，用于快速实时的网络资源分配，该方法在动态用户需求时，通过将各种类型的资源切片到不同的用户类别下的虚拟切片中来最大化网络提供商的长期回报，并能够在多资源同时优化时更快地获得最优平均回报。
PDF5 years ago
ICML使用线性可加特征的参数 Q 学习的样本最优解
该研究提出一种基于特征维度的参数 Q 学习算法，通过使用方差约减、单调性保持和置信区间等技术提高了其样本效率，并证明了该算法在任意初始状态下可以以高概率找到一个 ε- 最优的策略，适用于大规模的马尔可夫决策过程。
PDF5 years ago