Jan, 2024

多智能体强化学习的张量网络实现

TL;DR利用张量网络(TN)来表示多智能体增强学习(MARL)任务的预期回报,并通过优化和分解技术提高模型的表达效率。在一个土民随机漫步的示例中,通过 DMRG 技术对策略进行了正确优化,并且还演示了一种精确分解技术,将张量中的元素数量减少了 97.5%,而没有任何信息损失。