policy selection | BriefGPT

关键词policy selection

搜索结果 - 13

悲观的脱机政策评估、选择和学习的对数平滑
该研究调查了在线情境决策问题的离线公式化，其目标是利用在行为策略下收集的过往互动来评估、选择和学习新的、潜在更好性能的策略。通过采用悲观主义的原则构建对策略最坏情况性能的上限界，我们超越了点估计器，引入了对一类广泛的重要性加权风险估计器的新
PDFa month ago
行为监督调节的离线强化学习
TD3-BST 是一种应用于脱机强化学习算法的不确定性模型，通过指导策略在数据集支持中选择动作，从而比先前的方法更有效地从离线数据集中学习策略，并在具有挑战性的基准测试中取得最佳性能，无需进行特定数据集的调整。
PDF2 months ago
离线政策选择对强化学习的样本效率何时有效？
离线强化学习中的政策选择，样本效率，离线政策评估，以及贝尔曼误差估计等方面的研究。
PDF7 months ago
构建高效稳健的政策选择测试
RPOSST 算法作为一种基于相对较少的样本评估选择小型测试用例集的方法，可用于选择高品质策略，并优化出一种具有可证明的 k-of-N 鲁棒性的解决方案，可以用于解决在现代强化学习系统中的策略选择问题。
PDFa year ago
AAAI基于模型的离线强化学习中的本地错误建模
我们提出了一个基于模型的离线强化学习策略性能下限，明确捕捉动力学模型误差和分布不匹配，并提出一种用于最优离线策略选择的实证算法。我们通过建立对价值函数的悲观近似来证明了一种新的安全策略改进定理。我们的关键见解是同时考虑动力学模型和策略的选择
PDFa year ago
利用 K 均值算法高效搜索主动推理策略空间
本文提出了一种用向量空间嵌入法来进行政策选择的方法，并使用 k-means 聚类算法选择代表点，以在目标取向的图遍历问题中实现了更高效的政策选择。
PDF2 years ago
无需超参数的离线强化学习策略选择
本文研究离线强化学习中选择不同训练算法所产生的策略和价值函数的方法，通常需要超参数调整，已有的离线评估方法会产生鸡和蛋的困境，因此我们提出了一个基于 BVFT 的无超参数调整策略选择算法，并结合 OPE 来解决连续动作领域中出现的演员批评家
PDF3 years ago
主动离线策略选择
本文提出了一种新颖的顺序决策方法 —— 主动离线策略选择，该方法结合了在线交互和记录数据，利用基于贝叶斯优化和策略相似性的内核函数，通过多个基准测试，包括实际机器人应用，证明该方法改进了最新的离线策略评估估计和纯在线策略评估，解决了缺乏在线
PDF3 years ago
ICLR深度离线评估的基准测试
为了推动离线学习中的评估和选择复杂政策的发展，我们提供了一套用于基准测试的数据集和策略集，旨在提供一种标准化的进展度量方式，并对现有的算法进行评估。
PDF3 years ago
离线强化学习的超参数选择
本篇论文研究了针对离线数据选择最佳 RL 策略的离线超参数选择方法，并通过大规模实证研究表明：1）离线 RL 算法对超参数的选择不具有健壮性，2）离线 RL 算法和 Q 值估计方法等因素对超参数选择具有较大影响，3）通过控制这些因素，我们可
PDF4 years ago
SEERL: 高效率样本集成强化学习
本文提出了一种新的训练和模型选择框架，用于模型无关的强化学习算法，使用单次训练的策略集合。这些策略通过定向扰动模型参数在一定时间间隔内进行学习，选择一个足够多样化的策略集合对于得到一个好的集成模型来说是必需的。该框架具有显著的样本效率和低计
PDF4 years ago
一种最优的在线强化学习源策略选择方法
本文提出了一种在线多臂赌博机方法并结合 Q-learning 算法实现源策略的选择，证明了其最优选择过程和收敛到最优策略的理论保证，同时通过与最先进的传递学习方法在机器人导航领域上的实验比较，证明了其高效性和鲁棒性。
PDF7 years ago
带政策语言偏差的近似策略迭代：解决关系马尔可夫决策过程
研究大规模关系型马尔科夫决策过程（MDP）的政策选择方法，考虑一种近似政策迭代（API）的变体，用学习步骤在政策空间中替换通常的值函数学习步骤，介绍一个关系型政策语言和相应的学习器，以及基于随机游走的面向目标的规划域的自举例行程序，实验结
PDF13 years ago