q-values | BriefGPT - AI 论文速递

关键词q-values

搜索结果 - 10

模仿过去的成功可能不是最优的选择
本文研究提出了基于结果条件的模仿学习方法与强化学习中的奖励最大化问题之间的关系，并证明了现有方法并不一定能够改善策略，但是通过一些简单的修改得到的方法可以保证策略的改进。
PDF2 years ago
具有好奇心驱动探索的情节式多智能体强化学习
本篇论文提出了 Episodic Multi-agent 强化学习方法，并把个体 Q 值预测误差作为内部奖励，使用情节式记忆从经验中提升策略训练，从而实现多代理协作性问题的有效探索和高效学习。在 StarCraft II 微型管理基准测试中
PDF3 years ago
利用平均值：RL 中 KL 正则化的分析
本文探讨强化学习中的 KL 正则化，发现其内在地平均了 q-values，并推导了一个具有两个优点的性能上界。该性能上界在时间序列上的依赖是线性的而非二次的，误差传播方程涉及到估计误差的平均效果而非累积效果。我们也对额外熵正则化的更一般情况
PDF4 years ago
ICML深度强化学习中的风险和不确定性估计
提出了一个框架，通过学习的 Q 值来区分和估计强化学习中源于有限数据的认识不确定性和源于随机环境的 aleatoric 不确定性，并引入一种考虑不确定性的 DQN 算法，该算法表现出安全的学习行为，并在 MinAtar 测试中表现出优越性能
PDF5 years ago
ICML动作的自然语言
Act2Vec 是一种通用的框架，用于学习基于上下文的强化学习中的行动表示，在此基础上，该文章针对三个领域 (绘画任务、高维导航任务和星际争霸 2) 进行了可视化和测试，并展示了先前环境知识如何从示范中提取并注入到编码自然兼容行为的行动向量
PDF5 years ago
具有遗憾界限的变分贝叶斯强化学习
本文中，我们利用一种新的 Bellman 算子和相应的固定点，称为‘知识价值’，将期望未来回报和认知不确定性压缩成一个单一的值，从而实现了一种风险追求效用函数，并通过 Boltzmann 策略生成贝叶斯风险边界。
PDF6 years ago
ICML用于学习高斯策略的平滑动作价值函数
通过对期望 Q 值进行高斯平滑处理得到的行动价值概念可以依据 Bellman 方程进行学习，并且从平滑后的 Q 值函数的梯度和 Hessian 矩阵中可以恢复期望奖励关于参数化高斯策略均值和协方差的梯度。基于这些关系，通过直接从学习的平滑
PDF6 years ago
不确定贝尔曼方程与探索
本文中，我们考虑了强化学习中的探索 / 利用问题，提出了不确定性 Bellman 方程 (UBE) 来扩展策略的潜在探索利益，并证明了该方程的唯一不动点产生的方差上限是由任何策略引起的 Q 值的后验分布，相较于传统的基于计数的奖励方法，它控
PDF7 years ago
使用深度 Q-Learning 控制优化超参数
本文介绍了一种新颖的强化学习状态、动作和奖励函数的定义，它允许深度 Q 网络（DQN）学习控制优化超参数。我们使用经验重放的 Q 学习，训练两个 DQN 接受目标函数状态表示作为输入，并输出与学习率调整或保持不变的动作相关的预期折扣回报，即
PDF8 years ago
基于潜在函数的塑形和 Q - 值初始化是等价的
探讨了基于 potential-based shaping algorithm 的初始化步骤与 reinforcement learning 算法学习过程中的相似性，证明二者在一个广泛类别的策略下是无法区分的，并提出了一个更简单方法以捕捉该
PDF13 years ago