BriefGPT.xyz
Ask
alpha
关键词
context-dependent policies
搜索结果 - 2
基于马尔可夫决策过程、实体嵌入和代理集成的上下文感知型代理策略组合
我们提出了一种基于仿真的新方法,通过知识图和实体嵌入来表示异构上下文,并使用并行运行的代理集合对需求进行上下文感知型策略的组合。在 “Virtual Home” 数据集上的评估表明,需要在不同上下文之间无缝切换的代理可以即时请求组合策略,以
→
PDF
10 months ago
一种高效的含背包限制多臂赌博算法,以及对凹目标问题的扩展
研究了具有全局背包限制条件下的上下文多臂赌博问题,提出了一种计算效率更高、后悔更低的算法,复杂度与策略空间的大小成对数关系,并将结果推广到一种没有背包限制但目标是任意 Lipschitz 凹函数的变体。
PDF
9 years ago
Prev
Next