BriefGPT.xyz
大模型
Ask
alpha
关键词
policy classes
搜索结果 - 3
演示调整的强化学习
利用专家演示来改善强化学习的样本效率,本研究量化了额外信息在降低样本复杂度方面的理论效果,并证明了 KL - 正则化方法在处理人类反馈强化学习中的优势。
PDF
8 months ago
发现用户类型:通过针对性任务行为映射用户特征在强化学习中
针对辅助人类用户在强化学习中的应用,研究了被称为 "用户特征" 的关键参数,以指导干预设计,同时研究了用户行为 (策略类) 与用户特征之间的关系,通过构建一种易于理解的工具来研究 "用户类型" 的分解,证明了看似不同的现实环境存在相同的用户
→
PDF
a year ago
一般情境强化学习模型选择的帕累托前沿
研究模型选择中遇到的问题,证明了在_nested policy classes_中,无论时限和复杂度如何权衡,都不能同时得到所有策略的最优算法保证,并且在纯随机环境下,无法获得所需的结果;同时在_full-information games
→
PDF
3 years ago
Prev
Next