Feb, 2024

离线策略学习的数据集聚类

TL;DR该论文研究了一种被称为多行为的数据集特性,提出了一种行为感知的深度聚类方法,将多行为数据集分割成几个单行为子集,从而在线下决策学习中取得了改进的策略学习示例。