Feb, 2024

AlphaRank: 一个用于排序和选择问题的人工智能方法

TL;DR介绍了 AlphaRank,一种用于解决固定预算排名和选择问题的人工智能方法。使用蒙特卡罗模拟的策略为顺序采样决策建立马尔可夫决策过程,并利用经典的排名和选择程序作为基本策略来高效学习随机动态规划的价值函数。通过使用深度强化学习在给定先验的情况下对神经网络模型进行离线预训练来加速在线样本分配。还提出了一个可并行计算的框架来处理大规模问题,通过 “分而治之” 和 “递归” 相结合,提高了可扩展性和效率。数值实验证明了 AlphaRank 相比基本策略的显著改进,这可能归因于 AlphaRank 在平均值、方差和相关性权衡上的卓越能力,而这些特性通常被其他现有策略所忽略。