BriefGPT.xyz
Ask
alpha
关键词
reward scheme
搜索结果 - 3
城市尺度在线打车服务中基于深度强化学习的代理指导方向
本论文研究了如何通过新的 reward scheme 和 deep reinforcement learning 方法 AM-DQN 来控制城市中的空车,以实现在线打车服务的供需平衡,并使用芝加哥的数据集进行了实验,结果表明 AM-DQN
→
PDF
2 years ago
AAAI
通过合成数据奖励激励机器学习合作
本文提出了一种新的协作生成建模 (CGMO) 框架,通过使用最大均值差 (MMD) 数据估价函数和线性优化问题作为奖励计划,来激励个体之间的协作,将合成数据作为奖励分配给这些个体,同时保证合理的激励机制。
PDF
3 years ago
循环决策树中的交互式强化学习特征选择
我们提出了一种新的交互式和闭环架构,同时建模交互式强化学习(IRL)和决策树反馈(DTF),以在自动化过程中平衡有效性和效率的问题。通过实验,我们发现传统特征选择方法大多数是有效的,但难以识别最佳子集;而新兴的增强特征选择方法虽然可以自动导
→
PDF
4 years ago
Prev
Next