BriefGPT.xyz
Ask
alpha
关键词
optimal q-function
搜索结果 - 3
迁移 Q-Star:面向 LLM 对齐的原理解码
利用转移学习方法的 Transfer Q * 技术在最优 Q - 函数的缺失情况下,通过对齐基线奖励与基线模型来间接估计目标奖励的最优值函数,有效减小了先前方法中存在的次优解的差距,并在多个合成和真实数据集上证明了其卓越的实证性能。
PDF
a month ago
具有恒定子最优性差异的可线性实现 MDPs 的指数下界
本研究讨论在线强化学习问题,探讨了是否能够通过加入一个常数子优性差值的假设来实现有效学习,结果发现即使假设线性实现了最优 Q 函数,仍然需要指数级别的样本量,进一步证明在线学习和生成模型学习之间存在指数差距。
PDF
3 years ago
方差缩减 $Q$- 学习达到了最小极差优化
介绍和分析了一种方差减少的 Q-learning 方法,为具有有限状态和动作空间的折扣 MDPs 提供了相对精确的最优 Q 函数估计,其采样数量与最小极值下界匹配。
PDF
5 years ago
Prev
Next