Sep, 2021

在线二分匹配的深度策略:一种强化学习方法

TL;DR本文提出了一个端到端的强化学习框架,基于历史数据的试错,通过设置神经网络架构和设计特征表示,对在线匹配问题进行更好的匹配决策。在两个在线匹配问题中,我们的模型表现得比传统算法更好,提高了匹配质量约 3-10%,代码可在给出的 URL 中公开获得。