AlphaRank: 一个用于排序和选择问题的人工智能方法

Feb, 2024

AlphaRank: 一个用于排序和选择问题的人工智能方法

AlphaRank: An Artificial Intelligence Approach for Ranking and Selection Problems

Ruihan Zhou, L. Jeff Hong, Yijie Peng

TL;DR介绍了 AlphaRank，一种用于解决固定预算排名和选择问题的人工智能方法。使用蒙特卡罗模拟的策略为顺序采样决策建立马尔可夫决策过程，并利用经典的排名和选择程序作为基本策略来高效学习随机动态规划的价值函数。通过使用深度强化学习在给定先验的情况下对神经网络模型进行离线预训练来加速在线样本分配。还提出了一个可并行计算的框架来处理大规模问题，通过 “分而治之” 和 “递归” 相结合，提高了可扩展性和效率。数值实验证明了 AlphaRank 相比基本策略的显著改进，这可能归因于 AlphaRank 在平均值、方差和相关性权衡上的卓越能力，而这些特性通常被其他现有策略所忽略。

Abstract

We introduce alpharank, an artificial intelligence approach to address the fixed-budget ranking and selection (R&S) problems. We formulate

alpharank artificial intelligence fixed-budget ranking selection problems monte carlo simulation

发现论文，激发创造

在线平台中自适应学习选择 - 排序

优化用户排序列表的算法将用户偏好和物品位置的变化考虑在内，通过上界调整预测的用户满意度分数，并选择最大化这些调整分数的排序操作，以在异质用户中个性化用户体验。该算法在实验中表现优于基线模型。

Jun, 2024

并行大规模排序和选择的高效聚类与征服程序

提出了一种新颖的 “聚类与征服” 程序，用于并行大规模排名和选择（R＆S）问题，利用相关信息进行聚类以提高样本效率。在大规模 AI 应用中，我们的过程版本甚至超过了全序列基准，表现出更高的样本效率。同时，我们还提出了一种针对大规模问题的并行少样本聚类算法。

Feb, 2024

排序奖励：为组合优化实现自我对弈强化学习

本文介绍了一个名为 Ranked Reward（R2）的算法，它能够将敌对自我博弈用于单人游戏，并将其应用于维度为 2 和 3 的装箱问题，证明该算法胜过基本的蒙特卡罗搜索、启发式算法、整数规划求解器，并对排名奖励机制进行了分析。

Jul, 2018

不完全信息下的多智能体评估

本文探讨在不完全信息条件下对学习到的多智能体策略进行评估的方法，提出了基于图的博弈论解决方案概念的 alpha-Rank 评分方法，并提出了适应性算法，利用 Bernoulli 游戏、足球元游戏和 Kuhn 扑克等多个领域评估了这些方法的性能。

Sep, 2019

粗排名自适应采样

研究了活动粗聚类排序的问题，提出了一种计算有效的 PAC 算法 LUCBRank，探讨了其样本复杂性的上限和下限，并在实验中发现 LUCBRank 比现有的基线方法表现更好。

Feb, 2018

电子商务搜索引擎中的强化学习排序：形式化、分析和应用

本论文提出使用强化学习等算法解决电子商务平台中的多步排名问题，并通过模拟和淘宝搜索引擎实验，与在线学习到排名方法相比，获得了高于 40％和 30％的总交易金额增长。

Mar, 2018

显式与隐式语义排名框架

本文介绍了一种基于转换器的语义学习排序框架，Self-training Semantic Cross-attention Ranking（sRank）。在 Microsoft 的两个行业任务 Smart Reply（SR）和 Ambient Clinical Intelligence（ACI）中获得了质量和效率方面的实质性收益，PPG 得分都得到了提高，能够为客户提供技术支持和在医疗笔记中提供指导。

Apr, 2023

基于随机点击模型的在线学习排序算法

提出了一个新的在线学习排序算法 - BatchRank，适用于广泛的点击模型，包括级联和基于位置的模型，并在 Web 搜索查询的一系列测试中性能优越。

Mar, 2017

网络高效排名的物理模型

该论文提出了一种基于物理学原理的模型和高效算法，用于推断有向网络中节点的层次排名，并介绍了一种更精确的排名方式，并提供了一种对强度进行统计显著性检验的方法，应用于预测边的存在性和方向，并在实际和合成数据上分析展示出算法的效率与可扩展度。

Sep, 2017

深度排名集合用于超参数优化

利用集成的神经网络元学习方法来优化超参数排序，取得了超参数优化方面的最新最优结果。

Mar, 2023