BriefGPT.xyz
Ask
alpha
关键词
advice
搜索结果 - 4
自适应屏蔽在黑盒环境中的安全强化学习
在训练过程中,通过使用一种名为 ADVICE 的自适应屏蔽技术,可以识别出状态 - 动作对的安全和不安全特征,从而保护强化学习代理避免执行可能产生危险结果的动作,有效降低安全违规风险。
PDF
a month ago
ICML
基于导师的主动因果结构学习
本研究介绍了带有辅助意见的主动因果结构学习问题,提出了一种新的搜索算法来回复有向无环图,其干预成本最多为验证图的成本的 O(max {1,logψ})倍,其中 ψ 是 G 和 G * 之间的距离度量,当 G=G * 时恰好为 0。
PDF
a year ago
ICLR
学习增强 K 均值聚类
通过引入预测器,本文提出了一种新的 $k$-means 聚类算法,可以提高聚类的质量和效率,打破了此前关于 $k$-means 问题的计算难点。
PDF
3 years ago
强化学习智能体教学的学习
本文研究了在预算下动作建议的转移学习模型。我们关注于在有限建议预算下,强化学习教师向异质学生提供游戏 Pac-Man 的行动建议。第一,我们研究了影响此设置下建议质量的几个关键因素,例如教师的平均表现,其方差以及奖励折现在建议中的重要性。实
→
PDF
7 years ago
Prev
Next