mdp | BriefGPT - AI 论文速递

关键词mdp

搜索结果 - 48

ICML强化学习中发现和消除外生状态变量和奖励
本文提出了两个算法来发现外生变量，并证明了蒙特卡洛策略评估在内生 MDP 上的加速。结果显示这些算法是实用的，并且可以显著提高强化学习的速度。
PDF6 years ago
结构化强化学习的探索
研究了基于有限状态和行动空间的强化学习问题，探讨了如何最小化次优（状态、行动）对的探索率。得出特定于问题的遗憾下限，并提出一种新的学习算法 DEL （Directed Exploration Learning），让算法的性能达到遗憾下限，且
PDF6 years ago
马尔可夫决策过程之外的极限状态聚合
研究了强化学习中的状态聚合及特征学习，通过提出基于聚合过程的马尔科夫决策过程，推广了现有的聚合结果，解决了强化学习中状态空间大小的上限问题。
PDF10 years ago
强化学习中的状态表示选择
该研究论文研究了强化学习中选择正确的状态表示问题，提出了一种算法在不知道正确模型的情况下获得尽可能多的奖励。
PDF11 years ago
基于 MDP 的推荐系统
本研究通过引入 Markov 决策过程 (MDP) 更为恰当地对推荐系统进行建模，并提出 n-gram 预测模型用于生成初始 MDP 模型以提高预测准确性，该模型在真实数据上进行了评估并应用于基于 MDP 的推荐系统。
PDF12 years ago
序贯决策环境中的动态教学
在一个连续的决策环境中，我们描述了教授模型的理论界限和实用算法。我们聚焦于决策者作为一位决策者而不是一位观察策略的老师优化学习者的之前努力，并提出了几个基于先前定义的监督规程的教学框架，例如教学维度，并将它们扩展到处理在 MDP 中遇到的噪
PDF12 years ago
使用线性回归探索紧凑的强化学习表示
本文介绍了一种新的在线线性回归算法，其效率保证满足 KWIK 框架的要求，并将该算法应用于强化学习模型中，通过学习紧凑的表示方法进行模型训练和预测。
PDF12 years ago
基于方差的奖励函数用于近似贝叶斯强化学习
提出了一种基于后验概率分布的奖励加成方法，用于在 Bayesian RL 中解决探索与利用之间的困境，实现高效且有效的探索，能够利用结构化的先验知识，并证明其具有多项式样本复杂度。
PDF12 years ago