BriefGPT.xyz
Ask
alpha
关键词
pac
搜索结果 - 5
可上下文化的随机臂赌博机
介绍了一个在上下文赌博问题中近似最优样本复杂度,并且是这个问题的 PAC 设置和在线设置中的最小化遗憾。
PDF
a year ago
RAMBO-RL:稳健性对抗性基于模型离线强化学习
提出 Robust Adversarial Model-Based Offline RL(RAMBO),通过将问题建模为针对对手环境模型的两人零和博弈,训练出简单而精确地预测数据集过渡的模型和谨慎的策略,具有理论支持和比现有基线更出色的性能
→
PDF
2 years ago
ICLR
协变量偏移下的 PAC 预测集
论文提出了一种新的、能够在存在协变量转移情况下构建可能准确的预测集的方法,该方法重点关注源分布与目标分布之间的协变量转移,假设给定了编码训练样本概率变化的重要性权重,从而实现了不确定性的量化。
PDF
3 years ago
几乎处处算法稳定性与泛化误差
探讨了算法稳定性作为分析学习算法泛化误差的可行框架的概念。引入了学习算法训练稳定性的新概念,并证明在一般情况下它足以得到泛化误差的好界。在 PAC 设置中,训练稳定性在可学习性上既是必要的也是充分的。基于训练稳定性的方法不涉及 VC 维或
→
PDF
12 years ago
折扣马尔可夫决策过程的 PAC 上界
本文旨在研究在有限状态折扣马尔可夫决策过程中,学习接近最优行为的样本复杂度的上下界,并在假设每个动作导致的下一个状态至多有两个的情况下证明了 UCRL 算法的新界限,同时还通过更加通用且更加严格的下界加强了之前的工作。这些上下界在对数因子上
→
PDF
12 years ago
Prev
Next