具有分支资格控制的非参数背景赌博机在客户服务路由中的应用
该论文考虑了具有普适性假设的(随机性)上下文赌博问题,设计了一种快速、简单的算法,在所有$T$回合中通过对离线回归神谕的$logT$次调用实现了统计优化遗憾。我们的结果提供了第一个从上下文赌徒到离线回归的通用和最优化简化,解决了上下文赌徒文献中的一个重要开放问题。我们的结果表明,离线回归中的任何进展都将立即在上下文赌客中进行统计和计算翻译。
Mar, 2020
本文针对每日实际情况中,由于行动空间的限制,不能在所有情境下为每一个行动确定非零概率而产生的不足支持数据的问题,提出在限制行动空间、奖励外推和限制策略空间三个方法领域内提出的IPS补丁方法,分析了三种方法的统计性和计算性属性,并进行实证研究,提供了 I PS 方法学习时的实践指南。
Jun, 2020
本研究考虑了一种新颖的多臂赌博机问题(MAB with cost subsidy),为了优化累积的成本和收益,学习机构必须支付选择的手臂成本,针对这种问题,我们提出了探索-开发算法的简单版本并对其进行了广泛的数值模拟,最后建立了任何线上学习算法的性能下界,为实际应用不同算法提供了实用性建议。
Nov, 2020
研究了上下文臂问题,其中臂的总数可以巨大,并允许学习者选择 k 个臂并观察所选臂的所有或某些收益。我们为非极端现实设置提出了一个算法,并提出了一种实用的臂层次结构模型来处理极端情况,这种层次结构允许每个上下文的相关臂数指数减少,从而获得了有关遗憾的保证。
Feb, 2021
本文讨论了使用上下文赌博机(CB)的微软虚拟代理的实现情况,包括基于神经-线性赌博机(NLB)的意图消岐和基于一组多臂赌博机(MAB)的上下文推荐。我们的解决方案已经落地生产并通过A/B测试证实了业务指标的改进,包括问题解决率相对增加了12%以上,转移到人工操作员的相对减少了4%以上。
Dec, 2021
本文提出了一种基于非参数奖励模型的多臂赌博算法,具有最先进的上限复杂度,相对于已有的半参数算法,提供了明确的行动选择分布,并要求更少的计算,这个算法在涉及到两个以上臂的情况下,其上限遗憾的复杂度最优,并提供模拟结果验证其方法卓越性。
Jan, 2023
研究如何在多臂赌博机制(例如PPC拍卖)中有效地学习,解决诱导真实出价行为(激励)、用户个性化(上下文)和点击模式诱导(污损)三个挑战。该研究提出一种在环境和污损情况下表现良好的上下文多臂赌博算法。
Jul, 2023
该论文讨论了非固定多臂赌博机方法的系统架构设计和部署,以确定近乎最优的基于最近交易历史的支付路由策略。通过使用一种新颖的基于Ray的实现提出了一种路由服务架构,以实现每秒超过10000次交易的赌博机式支付路由的最佳扩展能力,同时遵守系统设计要求和与支付卡行业数据安全标准(PCI DSS)相关的生态系统约束。我们首先在自定义模拟器上评估了多种基于赌博机的支付路由算法的有效性,以评估多种非固定赌博机方法并识别出最佳的超参数。然后,我们在幻想体育平台Dream11上对支付交易系统进行了实时实验。在实时实验中,我们证明了相比传统的基于规则的方法,在一个月的时间内,我们的非固定赌博机算法能够持续提高交易成功率0.92%。
Aug, 2023
提出了一种综合的公式,通过利用上下文组合多臂赌博机来解决对话中的各种问题,包括探索与开发困境和处理大范围行动空间。通过NegUCB方法,在回报函数没有约束的情况下,解决了部分观察和复杂回报函数的常见问题,并在三个对话任务上进行的实验证明了该方法的优越性。
Jun, 2024