Jun, 2022

应用强化学习和基于图的以牙还牙策略解决非对称和循环时序社交困境

TL;DR本文提出了一种新的马尔可夫博弈模型,即循环顺序社交困境(CSSD),并通过深度强化学习和图形化Tit-for-tat策略成功解决了非对称合作问题。