BriefGPT.xyz
大模型
Ask
alpha
关键词
dqn
搜索结果 - 5
针对未知情况的调整:重新审视终身强化学习的评估策略
本文研究了终身强化学习中的关键问题,通过新的调优和评估方法,在只有百分之一的实验数据用于超参数调整的情况下,发现 DQN 和 Soft Actor Critic 方法表现不佳,而一些保持网络可塑性的算法措施表现出色,并且网络不断学习的能力与
→
PDF
3 months ago
失明训练 RL 智能体具有稳健性
通过引入神经网络架构和一种新颖的 n 步损失函数,我们的实现能够经受比训练数据更长的基于位置的视觉障碍,从而展现出对暂时性视盲的鲁棒性。
PDF
7 months ago
LADDER:大规模实时在线拍卖的人类水平竞价代理
LADDER 是一种基于 DASQN 的异步随机算法的深度强化学习代理,它能够成功地直接从包含高级语义信息的原始输入中学习大规模实际问题的控制策略,这种代理用于在线竞拍和广告领域,可以显著地提高公司的广告收益和广告主的投资回报率。
PDF
7 years ago
使用深度 Q-Learning 控制优化超参数
本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义,它允许深度 Q 网络(DQN)学习控制优化超参数。我们使用经验重放的 Q 学习,训练两个 DQN 接受目标函数状态表示作为输入,并输出与学习率调整或保持不变的动作相关的预期折扣回报,即
→
PDF
8 years ago
NIPS
深度关注递归 Q 网络
通过深度强化学习方法,利用软、硬注意力机制的扩展 DQN 算法,以 Atari 游戏为测试模型,表明其性能优于 DQN,并且内置的注意机制使得可以直接监控训练过程。
PDF
9 years ago
Prev
Next