- 悲观的脱机政策评估、选择和学习的对数平滑
该研究调查了在线情境决策问题的离线公式化,其目标是利用在行为策略下收集的过往互动来评估、选择和学习新的、潜在更好性能的策略。通过采用悲观主义的原则构建对策略最坏情况性能的上限界,我们超越了点估计器,引入了对一类广泛的重要性加权风险估计器的新 - 通过寻求帮助避免连续空间中的灾难
通过假设每个回合的付出代表避免灾难的机会,我们提出了一种上下文匹配问题的变体,目标是尽量减少灾难的可能性,进而通过最大化付出的乘积来尽量避免灾难的总体机会。我们提供了一个算法,可以在时间范围增长时使后悔和对导师提问的频率都趋近于 0,假设有 - 带预测内容的在线强盗学习
我们考虑了上下文强盗问题,在每个时间点上,代理只能访问上下文的嘈杂版本和误差方差(或该方差的估计)。我们提出了第一个在线算法,与适当的基准相比,在此设置中具有亚线性遗憾,其关键思想是将经典统计中的测量误差模型延伸到在线决策情境中,这是一个非 - 基于实时反馈的指令跟随持续学习
通过人机协作交互提供的实时二元反馈,用自然语言训练指令遵从代理的问题被研究。将学习作为一种上下文医师问题,将用户反馈转换为立即奖励,证明了其在提高指令执行效果方面具有优势,并且反馈信号与监督式演示数据的学习信号基本等价。
- 混淆核化赌博机的双重仪器方法
本论文中,我们解决了在 contextual bandit 问题中噪声被 confounder 影响的问题,引入了潜在的 confounder,并且应用了双重工具变量回归来解决 reward function 估计中的偏差问题,设计出基于理 - ICML具有大动作空间的上下文臂匠算法的实用化
提供了第一个通用的、效率高的算法,用于解决序列决策中存在的、现有算法在大型连续行动空间中表现不佳的问题,该算法基于(i)监督学习和(ii)行动空间的优化的计算预言,并显示其比标准基线方法表现更好。
- AAAI多项式 Logit 上下文强化学习:可证优化与实用性
本研究考虑了基于多项式逻辑回归选择模型的序贯选择问题,提出了基于上界置信度算法的解法,并得到了近似最优的遗憾上界;进一步,我们研究了该模型的极大似然估计量的置信度界,为实际应用提供了理论指导。
- 上下文赌博机的超参数调整
本文探讨了在线学习环境下,通过使用赌博机算法来自动确定探索参数,优化上下文赌博算法探索与利用的平衡问题。
- ICLR学习分组:一种针对未见类别的底部向上的三维零件发现框架
本研究提出一种基于学习的聚合聚类框架,在提取局部上下文以促进泛化到未知类别的情况下,学习部件的几何先验知识,并在不看到任何注释样本的情况下将其应用到未见过的类别中,实现了对大规模细粒度 3D 零件数据集 PartNet 的有效分割。
- IJCAI多臂老虎机中聚类和历史信息的最优利用
本研究研究了带有历史观测和预聚类武器的随机多臂赌博问题和情境赌博问题,并开发了一系列算法来有效地在在线探索阶段内合并这些离线信息并推导了它们的后悔界限,其中包括 META 算法,该算法在使用历史观测和聚类的算法和仅使用历史观测的算法之间有效 - 基于演员 - 评论家的上下文交互式医疗干预个性化算法
通过构建即时自适应干预研究中的任务来填补现有的方法论空白,提供了一个在线演员 - 评论算法的框架来构建和完善基于数据的即时自适应干预,以此解决移动健康领域的可解释性问题。
- IJCAI潜在语境决策与其在新用户个性化推荐中的应用
本研究提出了潜在上下文强化学习算法来解决个性化推荐中的冷启动问题,能够更快地了解新用户的兴趣并实现更好的后悔上限。
- 对抗环境学习的高效算法
该论文提出了用于对抗环境下上下文相关强化学习问题的第一种 Oracle 有效的亚线性后悔算法,分析了两个场景,其中一个是传递式场景,另一个是小分离器设置
- 社交推荐系统中的分布式在线学习
分析分布式在线推荐系统中的分散序列决策制定问题,针对分布式推荐系统中信息不对称的情况,通过协作性上下文问题模型解决,实现对推荐销售的最大收益。