BriefGPT.xyz
Ask
alpha
关键词
sequential decision policies
搜索结果 - 2
具有分步公平约束的强化学习
介绍了在社会重要领域中使用人工智能算法进行算法决策的公平性问题,并介绍了强调每个时间步骤群体公平性的强化学习框架和学习算法。
PDF
2 years ago
无限时间序列强化学习中具有混淆鲁棒性的策略评估
通过数据策略辅助下的敏感性模型,我们开发了一种强健的方法,针对诸如教育和医疗等批量强化学习的应用中未被观察到的变量,估计了一个无限时间阶段内给定策略值的尖锐边界。我们证明,随着我们收集更多混淆数据,我们能够收敛于尖锐的边界。虽然检查集合成员
→
PDF
4 years ago
Prev
Next