BriefGPT.xyz
Ask
alpha
关键词
contextual markov decision process
搜索结果 - 3
基于分层探索 - 利用权衡的离线 Oracle 高效学习上下文 MDP
本文提出了一种从上下文马尔科夫决策过程到离线密度估计的高效、近似最优的转化算法,同时解决了无结构假设的模型类 CMDPs。
PDF
a month ago
通过体验背景和布朗运动进行羽毛球选手的离线仿真行为
提出了一种新的用于模拟羽毛球运动员行为的层次化离线模仿学习模型 RallyNet,它能够捕捉决策依赖关系,并通过引入几何布朗运动(GBM)来模拟球员之间的交互,提供了对体育分析的交互模型的理解,验证结果表明 RallyNet 在模仿球员行为
→
PDF
4 months ago
上下文马尔可夫决策过程
论文讨论了一种名为 CMDP 的新模型,可模拟顾客在与网站交互时的行为,并基于此行为决定顾客特征,优化交互。作者提出了一系列算法,可以学习潜在的模型和上下文,并优化 CMDPs。
PDF
9 years ago
Prev
Next