Jul, 2022

使用离线强化学习进行通知的多目标优化

TL;DR本文提出一种基于强化学习的离线决策框架,通过解决分布偏移问题和Q值过高问题优化顺序消息决策,具有很好的在线和离线实验性能。