Jun, 2023

DCT: 大离散行动空间的强化学习行动嵌入的双通道训练

TL;DR本文提出了一种新颖的框架来 efficiently learn action embeddings,并且成功地在 2D maze 环境和真实世界的电子商务交易数据中实现了更干净的 action embeddings 和更好的策略学习。