Feb, 2015

上下文马尔可夫决策过程

TL;DR论文讨论了一种名为 CMDP 的新模型,可模拟顾客在与网站交互时的行为,并基于此行为决定顾客特征,优化交互。作者提出了一系列算法,可以学习潜在的模型和上下文,并优化 CMDPs。