BriefGPT.xyz
大模型
Ask
alpha
关键词
policies
搜索结果 - 26
强化学习中子目标自动机的归纳与利用
ISA 是一种学习和利用强化学习中子目标的方法,通过交错强化学习和感知高级事件的子目标自动机的归纳来学习如何到达任务目标状态,该方法使用一种现有的逻辑编程系统,使这些子目标表示为基于常命题逻辑的逻辑公式,并保证了最少状态的自动机归纳和对称性
→
PDF
4 years ago
政策评估网络
本文提出了一种基于价值函数、梯度上升和指纹技术的增强学习方法,通过估计给定一组状态下多种策略的价值,实现了在策略空间直接进行梯度上升从而产生优秀的策略。实验结果表明,该方法的理论和实际效果均优于传统方法。
PDF
4 years ago
强化学习的无奖励探索
该论文提出了一个新的 “无奖励强化学习” 框架,通过在探索阶段从 MDP 采集轨迹来找到探索策略,并使用黑盒近似规划器计算接近最优的策略。
PDF
4 years ago
EMNLP
隐私政策问答:结合计算和法律视角
本文介绍了 PrivacyQA 数据集,以及采用神经网络进行隐私政策问题回答的方法和挑战。PrivacyQA 数据集包括 1750 个问题和 3500 个相关答案的专业注释,研究表明,当前的神经网络方法在回答隐私政策问题上存在诸多问题,该数
→
PDF
5 years ago
可达结果空间的无监督学习和探索
本文介绍了一种新的基于种群分布式搜索的无任务探索算法 TAXONS,可用于直接从高维观测数据中寻找有效策略,结合重构误差在极少先验知识的情况下自适应驱动搜索,能够在稀疏奖励问题中成功探索出多样化的控制器。
PDF
5 years ago
动态随机化的机器人控制的仿真到实际转移
本文介绍了一种简单的方法来解决在模拟训练中的现实差距问题。通过在训练过程中随机化模拟器的动力学,我们能够开发出适应非常不同的动力学的策略,并且使其在真实世界中推广而不需要在物理系统上进行训练。在机器人控制方面,我们的方法在物体推动任务上表现
→
PDF
7 years ago
Prev
Next