拟合 Q 评估的超参数选择方法及误差保证

AAAIJan, 2022

拟合 Q 评估的超参数选择方法及误差保证

Hyperparameter Selection Methods for Fitted Q-Evaluation with Error Guarantee

Kohei Miyaguchi

TL;DR该研究针对 FQE 算法的超参数调优问题，提出了一种基于近似超参数选择框架的优化方法，该方法不需要超参数就可以定义一种量化且可解释的最优化标准，并验证理论误差界与实际观察的匹配。

Abstract

We are concerned with the problem of hyperparameter selection for the fitted Q-evaluation (FQE). FQE is one of the state-of-the-art method for offline policy evaluation (OPE), which is essential to the reinforcement learning without environment simulators. However, like other OPE metho

hyperparameter selection fitted q-evaluation offline policy evaluation approximate hyperparameter selection optimality

发现论文，激发创造

复杂分形可训练性边界可由微不可见的非凸性产生

通过研究梯度下降中的学习率与损失函数之间的关系，我们发现简单的非凸扰动可以导致分形可训练性边界，这一发现有助于更好地理解神经网络训练过程中的复杂行为，从而提高训练策略的一致性和可预测性。

Jun, 2024

基于原始 - 对偶辅助罚函数的耦合约束双层优化方法

我们的论文研究了具有耦合约束的双层优化问题，并开发了一种名为 BLOCC 的（完全）一阶算法，实现对这一具有挑战性但较少被探索的场景的解决。我们为所提算法建立了严格的收敛理论，并通过使用塞维利亚城市的真实数据，对 SVM 中的超参数选择和交通网络的基础设施规划这两个知名的实际应用进行了有效性验证。

Jun, 2024

e-COP：策略的时序受限优化

本文介绍了 $ exttt {e-COP}$ 算法，这是第一个适用于有约束的强化学习 (RL) 的离散 (有限时段) 设置的策略优化算法。我们通过在离散设置下建立策略差异引理来解决这个问题，提供算法的理论基础。通过对 Safety Gym 测试套件中的基准进行广泛的实证分析，我们展示了我们的算法在性能上与非离散设置下的最新算法相似或更优。该算法的可扩展性为将其应用于大型语言或扩散模型的通过人类反馈进行安全约束的强化学习打开了大门。

Jun, 2024

学习增强优先级队列

研究目标是在学习增强框架中设计优先队列，利用预测提高优先队列操作的性能，同时证明解决方案的最优性和讨论一些可能的应用。

Jun, 2024

OPERA：多个估计器加权汇总的离线自动策略评估

提出了一个新的、自适应混合使用一组离线策略评估器的算法，该算法不依赖于显式选择，并证明了该评估器对政策评估具有一致性和几个可取的属性。此外，还证明了与其他方法相比，该评估器可以在医疗保健和机器人技术方面选择更高性能的策略，为离线强化学习中的通用、估计器不可知的离线策略评估框架的易用性改进做出了贡献。

May, 2024

线性二次调节器的样本复杂度：强化学习视角

我们提供了一个新的算法，可以在没有依赖于两点梯度估计的情况下，在大约 1/ε 个函数评估内确保 ε- 最优性，适用于具有未知参数的折扣离散时间 LQR 问题。

Apr, 2024

量子神经网络的超参数优化

通过比较不同配置，我们对量子机器学习模型的性能进行了研究，提供了性能数据和超参数选择的具体建议。

Mar, 2024

离线强化学习：状态聚合和轨迹数据的作用

离线强化学习中，对于具有价值函数的可实现性但不具备 Bellman 完备性的问题，我们提供了关于离线策略评估任务的负回答，并揭示了聚合马尔可夫转移模型中的集中度系数在样本复杂性中的重要性，即使原始 MDP 中的集中度系数较小且离线数据可接受，聚合的集中度系数仍可能呈指数增长，而轨迹数据相对于可接受的数据并没有额外的好处。

Mar, 2024

连续学习场景下的自适应超参数优化

通过基于方差的函数分析技术，在持续任务学习中探索了超参数选择的作用以及根据任务复杂度不断自动调整超参数的必要性，实证表明该方法可以持续地加快超参数优化速度并在不断变化的顺序任务中表现出鲁棒性，为现实应用中更高效、更稳健、更适应性强的持续学习方法做出了贡献。

Mar, 2024

带有弗雷歇特 - 类型尾部分布的跟随扰动领导者：对抗性赌博机中的最优性和最佳选择之间的折衷

本文研究了在对抗性和随机的 K 臂赌博机中，随机扰动策略（Follow-the-Perturbed-Leader）的最优性。我们建立了对于扰动实现 O (√KT) 遗憾的充分条件，并展示了随机扰动策略在具有特定尾部分布的情况下实现的最佳两者能力。

Mar, 2024