q-function | BriefGPT - AI 论文速递

关键词q-function

搜索结果 - 11

Q - 函数之差的正交估计
离线强化学习是许多具有可用观测数据但由于安全、成本和其他方面的考虑而无法在线部署新策略的设置中的重要问题。本文提出了 R-learner 的动态推广，用于估计和优化 Q 函数之间的差异，方法可以利用黑盒辅助估计器和行为策略来估计更结构化的
PDF24 days ago
离线强化学习中的潜在扩散推理
该论文介绍了一种离线强化学习的方法，使用压缩的潜在技能建模支援轨迹序列，避免外推错误，并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息，改进了信用分配，并促进了更快的奖励传播。该
PDF10 months ago
离线增强学习与在线策略 Q 函数规范化
提出了两种算法，利用行为策略的 Q 函数通过正则化来解决离线强化学习中由于数据分布变化而引起的外推误差，该方法在 D4RL 基准测试中表现出良好的性能。
PDFa year ago
逆向偏好学习：无奖励函数的基于偏好的强化学习
提出了一种名为 Inverse Preference Learning（IPL）的新算法，用于从离线偏好数据中学习奖励函数，该算法使用 Q 函数来代替学习得到的奖励函数，具有更高的参数效率和更少的算法超参数和学习网络参数。
PDFa year ago
使用层次行动探索的深度强化学习实现对话生成
本文提出一种新的双粒度 Q 函数，通过探索最有前途的响应类型来介入采样，从而解决自然语言行动空间巨大所带来的效率问题，在多个设计用于识别人类情感细节的奖励函数中，以离线强化学习的方式学习，我们的算法在实证研究中表现优于基线方法，进一步验证表
PDFa year ago
基于蒸馏执行的个性化多智体强化学习训练
本文提出了一种新的多智能体强化学习范式 (PTDE) ，通过对全局信息进行个性化设置，将个体的全局信息提炼成本地信息，用于分权执行，实现更好的性能，其可与现有的算法结合使用，提高性能。
PDF2 years ago
演员优先的经验回放
本文提出了一种新的经验回放采样框架，旨在解决深度强化学习模型 Prioritized Experience Replay (PER) 在连续控制任务上表现不佳的问题，同时还解决了 POLICY GRADIENT 问题和稳定性问题。在 ext
PDF2 years ago
IQ-Learn: 逆软 Q 学习用于模仿
介绍了一种动态感知的逆强化学习方法 ——IQ-Learn，它通过学习单个 Q 函数来避免对抗性训练，并可在标准测试中取得最好的结果，比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。
PDF3 years ago
CoinDICE：离线策略下置信区间估计
本研究提出了一种新的算法 CoinDICE，用于估计目标策略的价值的置信区间，有效地解决了强化学习中关于行为无关离线评估的问题。
PDF4 years ago
逻辑回归 Q-Learning
本研究提出了一种基于正则化线性规划的强化学习算法 QREPS，相对于相似的 REPS 算法增加了 Q - 函数来实现无模型训练，并提供了一种策略评估的凸损失函数来替代传统的平方 Bellman 误差，同时提供了一种实用的最小化损失函数的鞍点
PDF4 years ago
带离线修正的 Q ($λ$)
这篇论文提出和分析了一种替代的离线多步时间差异学习方法，在其中离线返回校正与当前的 Q 函数以奖励形式相关，而不是与目标策略以转换概率相关，证明了这种近似校正在离线评估和控制中足以实现离线收敛条件，并对连续状态控制任务进行了理论关系的实证。
PDF8 years ago