- 关于局部隐私线性情境赌博机的最佳后悔
通过分析均值绝对偏差误差和分层主成分回归,我们展示了一种能够在局部隐私线性情境播放机中实现 O (√T) 累积遗憾上界的解决方案。
- IBCB:用于行为演化历史的高效反向批次上下文强化学习
该研究提出了一种逆批次上下文强盗(IBCB)框架,可以高效地估计基于专家行为演化历史的环境奖励参数和学习策略。与现有的模仿学习算法相比,IBCB 在合成和真实数据上表现出色,并且显著降低了运行时间,同时表现出更好的非分布式泛化能力和从初级专 - 使用上下文强化学习优化华法林剂量:一种离线策略学习和评估方法
利用历史政策的观察性数据和离线策略学习,通过上下文匪徒设置中的个性化剂量策略,成功解决了华法林(一种抗凝药物)剂量确定的挑战,展示了良好的应用潜力。
- 自适应实验中的差分隐私 CATE 估计
该研究旨在研究上下文匹配实验中社会福利损失与统计功效之间的折中,并提出了一个多目标优化问题的上下界匹配方法,以及结合隐私保护措施的差分隐私算法,并推导出了估计器的渐近正态性质。
- 未知上下文分布的上下文强化学习的最优交叉学习
在文中,我们解决了 Balseiro 等人提出的 “交叉学习” 设置中的上下文强盗算法设计问题,通过提供一个高效算法,其拥有几乎紧密(除对数因子外)的减悔上界 O(TK),与上下文数量无关。作为结果,我们得到了对于在未知值分布下学习进行首价 - 跟进也很重要:通过后续服务改进上下文强化学习
设计了一个新算法 poLinUCB,用于处理具有后续服务上下文的情境强化学习问题,并在标准假设下实现了紧凑的遗憾值。
- AdaptEx:一个自助式上下文强化学习平台
AdaptEx 是一个自助上下文强化学习平台,利用多臂赌博算法在 Expedia Group 广泛使用,以大规模个性化用户体验。AdaptEx 根据每位访问者的独特上下文选择最优变体,并迅速学习每一次互动,提供了一种强大的解决方案,以改善用 - 具有大行动空间的离策评估的双重稳健估计方法
我们在具有大动作空间的情境赌博设置中研究了离策略评估 (Off-Policy Evaluation,OPE)。基准估计器在严重的偏差和方差权衡中遇到困难。为了克服这些限制,我们提出了基于动作嵌入 (MIPS) 的边际化逆向倾向评分 (Mar - 非稳态环境下具有昂贵特征的在线学习
在顺序决策问题中,我们扩展上下文奖励设置并允许智能体观察功能状态的子集,以同时最大化长期平均收益并在有限时间内保证减少。
- 多智能体情境赌博机制中的 Epoch-Greedy 鲁棒性分析
研究如何在多臂赌博机制(例如 PPC 拍卖)中有效地学习,解决诱导真实出价行为(激励)、用户个性化(上下文)和点击模式诱导(污损)三个挑战。该研究提出一种在环境和污损情况下表现良好的上下文多臂赌博算法。
- 带匪反馈的最近邻算法
本文中我们将最近邻居规则应用于情境强盗问题,并与适当快速的自适应最近邻搜索数据结构结合,如导航网等,我们的算法在完全对抗环境中处理数据生成过程中不作出任何假设,具有多项式对数级别的每一次执行时间,在试验和行动的数量上具有快速执行的优势,并仅 - 可上下文化的随机臂赌博机
介绍了一个在上下文赌博问题中近似最优样本复杂度,并且是这个问题的 PAC 设置和在线设置中的最小化遗憾。
- 战略性苹果品鉴
本文探讨了在高风险领域中的算法决策,其中涉及到对代理的决策,在对其进行策略性修改的激励下,研究了在线学习问题,使其达到亚线性策略后悔,并提出了实用的解决方案。
- 使用背包问题的上下文臂局部总成本约束,在公平性中的应用
本文提出了一种基于投影梯度下降思想的具有公平性约束的上下文赌博问题解决算法,能够处理特定成本约束条件下的收益最大化问题。
- 具有子高斯奖励的上下文强盗问题的 Thompson 抽样遗憾边界
本文基于 Neu 等人引进的抬升信息比率,研究 Thompson Sampling 算法在情境赌博问题中的性能,并证明了李环境参数和历史的互信息的综合界限,并提出适用于亚高斯奖励子集的抬升信息率新界限,推广了 Neu 等人的研究,最后为无结 - ICML拥塞贝叶斯:通过短期重置实现最优路由
该研究针对交通路线推荐问题,提出了基于拥堵信息的多臂赌博机和上下文赌博机算法,并通过仿真实验证明了算法的无后悔性。
- 使用贝叶斯方法学习马尔可夫决策过程中的 Bandit 结构
研究了强化学习中决策问题的环境类型不确定性问题,提出了一种基于贝叶斯假设检验方法的在线算法,可以在上下文探索和马尔科夫过程决策算法之间互相转换来适应环境类型,以避免不合适的环境假设引起的低效问题。
- 如何与人工智能对话:指令,描述和自主性
研究从语言中学习以实现语言使用与机器智能的价值对齐,分析了两种不同类别的语言,即指令和描述,运用上下文强化学习进行形式化的建模,并且验证了这种社会学习方法在传统的强化学习任务中可以降低遗憾值。
- ACL基于用户反馈的摘录式问答中的赌博学习模拟
研究从用户反馈中学习抽取式问答,通过模拟反馈使用监督数据,并将问题视为情境臂学习。分析减少数据标注的几个学习场景的特征。显示最初训练的系统可通过用户反馈大幅度改进,并且可以使用现有数据集在新领域部署系统,而无需任何标注。
- 多臂老虎机实验中的适应性和混淆
本篇论文研究以往文献未解决的问题,提出了一种新的基于 Thompson 采样的算法(被称为去混淆 Thompson 采样),该算法在易于稳定的情况下发挥优越效率,在困难的不稳定情况下也表现出出人意料的韧性,可在具有不稳定上下文影响的武器性能