在线二分匹配的深度策略：一种强化学习方法

Sep, 2021

在线二分匹配的深度策略：一种强化学习方法

Deep Policies for Online Bipartite Matching: A Reinforcement Learning Approach

Mohammad Ali Alomrani, Reza Moravej, Elias B. Khalil

TL;DR本文提出了一个端到端的强化学习框架，基于历史数据的试错，通过设置神经网络架构和设计特征表示，对在线匹配问题进行更好的匹配决策。在两个在线匹配问题中，我们的模型表现得比传统算法更好，提高了匹配质量约 3-10％，代码可在给出的 URL 中公开获得。

Abstract

The challenge in the widely applicable online matching problem lies in making irrevocable assignments while there is uncertainty about future inputs. Most theoretically-grounded policies are myopic or greedy in nature. In real-world applications where the matching process is repeated o

online matching problem reinforcement learning neural network architectures historical data matching quality

发现论文，激发创造

具有强鲁棒性保证的边加权在线二分匹配学习

本研究提出了一种基于强化学习的新型边权重在线二分图匹配方法（LOMAR），以实现良好的平均情况和最坏情况下的性能，其中，关键新颖的操作是根据谨慎的条件决定是否跟随专家的决策还是 RL 决策。

May, 2023

无遗憾学习匹配：基于 Markov 匹配市场的强化学习

研究马尔可夫匹配市场，提出强化学习框架，结合最大权匹配算法解决序列探索、匹配稳定性和函数逼近等问题，并证明算法可达到次线性的遗憾率。

Mar, 2022

通过子模性在在线二分匹配中平衡相关度和多样性

本文介绍了在线子模二分图匹配问题（Online Submodular Bipartite Matching）的概念和算法，该问题旨在在考虑到多样性和相关性的情况下，通过优化子模函数 $f$ 来匹配边的集合以得到最佳匹配。

Nov, 2018

多机器人任务分配中带有学习激励函数的大图匹配加权

该论文介绍了一种使用图强化学习 (GRL) 框架来学习多机器人任务分配 (MRTA) 的启发式或激励的方法，其中使用胶囊注意力策略模型来学习如何赋予任务 / 机器人配对 (边) 在将任务集与机器人集连接的二分图中的权重。该方法与使用专家指定启发式的原始二分图匹配方法性能相当，但具有显著的鲁棒性优势。在训练过程中，学到的激励策略与专家指定的激励策略初始接近，然后稍微偏离其趋势。

Mar, 2024

半在线二分匹配

本文介绍了半在线模型，分析了其应用于二分图匹配问题的效果，给出了竞争性的算法并证明其同样具有竞争性，竞争度可以在完全在线模型和完全离线模型之间插值。

Dec, 2018

在线匹配：一种用于大规模推荐的实时试错系统

通过在线学习的方法，本研究提出了一种用于大规模推荐系统的可扩展闭环赌博系统，以提高新内容发现和物品探索的能力。

Jul, 2023

共乘平台中的分配问题：在线匹配与离线可重复使用资源

这篇论文提出了一种新的在线匹配模型，该模型考虑了资源重用问题，同时给出了一个基于线性规划的自适应算法，可以在应用实例如出租车调度服务等中得到应用。

Nov, 2017

在线带有有限指导的二部图匹配

研究在线非加权二分图匹配中的问题，其中有 n 个离线顶点和 n 个在线顶点，并且希望与最佳离线算法保持竞争力。尽管 Karp 等人 [1990] 的经典 RANKING 算法可以证明达到 1-1/e>1/2 的竞争比率，但我们表明在对抗性到达模型中，没有学习增强方法既可以是 1 - 一致的又可以比 1/2 - 健壮。同时，在随机到达模型下，我们展示了如何利用分布测试方法设计出一种算法，该算法接受关于在线顶点的外部建议，并在竞争比率上从不需要建议的方法和最优比率 1 之间插值，这取决于建议的质量。

May, 2024

使用不匹配约束策略加速安全强化学习

提出一种迭代策略优化算法以安全地学习来自基准策略的强化学习问题，其中基准策略可以来自示范数据或教师代理，并且需要满足一组由安全性、公平性或其他特定应用需求编码的约束条件。在控制任务上的实验中，该算法始终优于多个最先进的基线算法，并在平均回报上提高了 40％，约 10 倍少的约束违规行为。

Jun, 2020

在线随机匹配：超越 1-1/e

本研究介绍了一种算法来解决在线随机二分匹配问题，提供了一个 0.67 的逼近比和一种基于流量图和最大流问题的新方法来解决这个问题。

May, 2009