Jun, 2023

通过强化学习与环境修正实现自动演绎路径学习

TL;DR本文提出一种自动化结账方案,基于深层次强化学习方法解决了搜索空间巨大、历史记录匮乏等问题,通过构建分层的动作空间和部分观察的决策问题模型,在全球最大的电子支付业务上推广了这一方案。