q-learning | BriefGPT - AI 论文速递

关键词q-learning

搜索结果 - 133

基于强化学习的分组光网络路由与混合遥测
这篇论文提供了一种方法和开源实现，用于在包光网络场景中寻找最佳路径的强化学习算法。该算法利用物理层（前 FEC 误码率和传播延迟）和链路层（链路负载）提供的测量结果，配置基于延迟的奖励和惩罚集，然后基于这些测量结果执行 Q 学习，找到最佳的
PDF16 days ago
如何在 Q 学习中对连续状态 - 动作空间进行离散化：一种符号控制方法
基于符号模型的新型 Q 学习方法通过分析连续状态 - 动作空间的挑战，并利用符号模型表示行为关系，提出了一种解决方案，该方案能够获得编码最优策略的两个 Q 表，并探讨了空间抽象参数与 Q 值损失之间的相关性，并通过两个案例研究展示了该方法的
PDFa month ago
利用大型语言模型启发增强 Q-Learning
LLM-guided Q-learning combines the advantages of large language models and Q-learning without introducing performance bi
PDF2 months ago
正则化 Q 学习通过强健平均化
我们提出了一种新的 Q 学习变体，称为 2RA Q 学习，以有原则的方式解决现有 Q 学习方法的一些弱点。我们对最大期望值项提出了鲁棒分布估计器，从而可以精确控制引入的估计偏差水平。分布鲁棒估计器具备闭合解，因此所提出的算法每次迭代的计算成
PDF2 months ago
确定性环境下的递归反向 Q 学习
该研究提出了递归反向 Q-learning（RBQL）代理，通过引入基于模型的方法，探索和构建环境模型，以更好地解决确定性问题。在达到终止状态后，该代理通过这个模型递归地向后传播其价值，从而实现对每个状态的最优值评估，避免了冗长的学习过程。
PDF2 months ago
平滑 Q-learning 算法的统一 ODE 分析
通过异步强化学习和平滑版本的简化框架，提出了更加广泛和统一的 Q-learning 及其平滑变体的收敛性分析方法。
PDF2 months ago
常步长非光滑收敛 SA 的预连续耦合和稳态收敛
基于 Q-learning，本研究研究了具有恒定步长的非光滑压缩随机逼近（SA）。我们关注两类重要的动态：1）具有加性噪声的非光滑压缩 SA，和 2）具有加性和乘性噪声的同步和异步 Q-learning。对于这两种动态，我们证明了迭代在 W
PDF3 months ago
在大规模无线网络中利用数字双胞胎进行合奏式 Q 学习
通过新颖的合奏 Q-learning 算法，针对优化无线网络的性能和复杂性挑战，通过合成马尔可夫决策过程的集成学习，提出了适应大状态空间可观测无线网络的新模型，通过在多个合成马尔可夫环境上并行运行多个 Q-learning 算法并将其输出融
PDF5 months ago
多时间尺度集成 Q-learning 用于马尔科夫决策过程策略优化
提出了一种新颖的模型无关的集合强化学习算法，通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法，并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出，获得具有低复杂度的近似最优策略。与最先进的 Q 学习
PDF5 months ago
联邦离线强化学习：协同单策略覆盖足够
通过将离线强化学习与联邦学习相结合，本文研究了联邦离线强化学习在有限时间段下的马尔可夫决策过程中的优势，设计了一种名为 FedLCB-Q 的变体算法，通过合作利用多个智能体的离线数据集实现了线性加速，并实现了与单智能体方法相当的样本复杂度，
PDF5 months ago
常步尺度 Q - 学习：分布收敛、偏差和推广
通过将常步长 Q 学习与时间齐次马尔可夫链连接，在 Wasserstein 距离中展示了迭代的分布收敛性，建立了其指数收敛速度；我们还为 Q 学习迭代建立了中心极限定理，证明了平均迭代的渐近正态性；此外，我们提供了对步长渐近偏差的显式扩展，
PDF5 months ago
图形 Q-Learning 用于组合优化
本论文提出并证明了图神经网络可以应用于解决组合优化问题，通过将优化过程视为顺序决策问题，使用 Q-Learning 训练图神经网络可以在参数和训练时间上只占一小部分的情况下接近达到最先进的启发式求解器的性能。
PDF6 months ago
SPQR：使用尖峰随机模型控制 Q - 集合独立性的强化学习
为了克服过度估计偏差，在深度强化学习中提出了一种新的正则化损失函数，基于随机矩阵理论的销钉 Wishart Q 集合独立正则化（SPQR），以增强多个 Q 函数的多样性，通过实现 SPQR 在在线和离线集合 Q 学习算法中进行实验证明，SP
PDF6 months ago
基于价值的多目标强化学习在随机环境中的实证研究
本研究针对多目标强化学习中基于值函数的 Q-learning 算法在具有随机状态转移的环境中学习最优策略的问题进行了详细研究，考察了算法的变种以及奖励工程方法，并突出了噪声值估计问题对算法稳定性和收敛性的重要影响。
PDF6 months ago
AAAI部分动力学知识的高效强化学习
本文研究在线强化学习的样本复杂性问题，并考虑了有关系统动态的部分知识，提出了一种基于 Q-learning 的算法，能够在具有有限 Markov 决策过程的系统中实现近似最优策略。
PDF6 months ago
在不完美的信道上学会合作与沟通
多智能体系统中的信息交流在部分可观察环境中提高智能体之间的合作，本文考虑了基于有限和不可靠信道下智能体的合作通信，通过提出一种基于独立 Q 学习的新型通信方法，智能体可以动态适应信息共享的量，从而根据本地观察和信道特性发送不同大小的消息，同
PDF7 months ago
使用强化学习近似凸包
使用随机控制方法估计非凸函数的凸包问题，并基于此开发了强化学习方案来近似凸包，使用改进的 Q 学习方法进行控制性最优停止，在标准测试题库上取得了非常有希望的结果。
PDF7 months ago
基于机器学习的 VLC 物联网网络的分布式 TDMA
本文提出了一种基于机器学习的分布式可见光通信物联网网络的时分多址（TDMA）算法，该算法基于强化学习算法 Q-learning，并考虑了分布式环境中的同步和数据传输时隙分配问题。结果表明，该算法相较于 CSMA/CA 算法，在网络中能够提供
PDF7 months ago
使用 Q 学习的指针网络进行 OP 组合优化
该研究揭示了指针 Q 网络 (PQN) 这种创新方法的架构和效率，展示了其在管理导向问题 (OP) 情境中的卓越能力。
PDF8 months ago
通过对抗性行为来抑制 Q 学习中的过高估计
通过引入虚拟对手行为的虚拟对手 Q 学习（DAQ）算法，该论文旨在解决标准 Q 学习中过高估计偏差的问题，将学习过程建模为一个双人零和博弈，并统一了几种控制过高估计偏差的 Q 学习变体。通过将 DAQ 应用于现成的强化学习算法，可以简单有效
PDF9 months ago