Feb, 2024

在大规模无线网络中利用数字双胞胎进行合奏式 Q 学习

TL;DR通过新颖的合奏 Q-learning 算法,针对优化无线网络的性能和复杂性挑战,通过合成马尔可夫决策过程的集成学习,提出了适应大状态空间可观测无线网络的新模型,通过在多个合成马尔可夫环境上并行运行多个 Q-learning 算法并将其输出融合成单一的 Q 函数,达到平均策略误差减少多达 50%,运行时复杂性减少多达 40% 的目标。