May, 2024

$ε$- 在线定价的策略梯度

TL;DR该研究论文结合了基于模型和基于模型的强化学习方法,提出并分析了一种用于在线定价学习任务的 ε- 策略梯度算法。该算法通过将贪婪的利用替换为梯度下降步骤,并通过模型推理来促进学习。通过量化探索概率 ε 的探索成本和梯度下降优化和梯度估计错误的利用成本,优化了所提出算法的遗憾。该算法在 T 次试验中达到了 O (√T)(乘以一个对数因子)的预期遗憾。