战略性苹果品鉴
在在线二元分类中,以苹果品尝反馈为基础,研究了部分反馈设置的经典问题,并从组合的角度研究了在线可学习性。通过证明 Littlestone 维度在此问题中紧密定量描述了苹果品尝的不确定性,解决了之前提出的开放问题。此外,引入了一个新的组合参数 —— 有效宽度,严格量化了可实现设置中最小化最大期望错误的情况,进而建立了最小化最大期望错误的三分情况,即仅可能出现 $\Theta (1)$、$\Theta (\sqrt {T})$ 或 $\Theta (T)$ 的错误数。
Oct, 2023
研究在线线性分类问题,应对操纵特征的策略代理的对抗性选择和他们操纵向量的揭示偏好,提供一个计算有效的学习算法,获得减小的 Stackelberg 后悔以近似于最佳分类器。
Oct, 2017
学习在重复的一价拍卖中进行投标是博弈论和机器学习之间的一个基本问题,我们提出了一种新颖的凸形式用于分析一价拍卖中的纯策略投标,并证明了我们的算法可以有效鼓励拍卖买家真实报价并且无法被巧言利用。
Feb, 2024
研究在线学习在上下文广告竞拍中的应用,通过算法获得最小化收入损失的目标,针对点击率进行估计,提出了两种有效的上下文拍卖算法,并通过实验验证了其有效性和超凡性能。
Oct, 2023
本研究旨在应用赌注机制的类型建立算法,使学习算法对于观察到的事实的最佳专家后悔,并保证每个专家都以其真实信念的方式报告其每个事件的实现,从而实现在线学习环境中的学习。
Feb, 2020
该论文提出了一种新的 “元” 算法,可以在在线学习环境中实现算法的快速适应,该算法对于同样时间复杂度的其他算法而言具有更好的强适应性后悔边界,并且在专家建议的学习及度量学习方面表现优异。
Nov, 2017
对在线评估工具进行策略应对的研究表明,在考虑个体决策者和决策机构间多次周期策略互动的情况下,多轮互动使得决策机构更加有效地激励个体决策者朝期望的方向累积努力,并考虑延长时间框架和考虑决策累积的很多关键因素需要加以研究和解决。
Jun, 2021
本文研究了一种在线学习算法,该算法将多个专家的预测结果融合为一个预测结果以提高准确性,并利用特定结构的效用函数设计了激励兼容性和无悔策略两个要求的算法,以应对专家可能误导算法的情况。
May, 2023
研究了由 Stackelberg 博弈建模的信息获取问题,设计了样本有效的算法来优化评分规则,并保证了代理的行为得到激励,且无关环境状态数的遗憾值上界为 T 的两到三次方根。
Mar, 2023
通过研究策略性代理商操控推荐系统以最大化推荐次数的现象,我们针对线性上下文赌博问题的策略变体进行研究,其中,策略可以误报私有观察到的上下文给学习者。我们将算法设计问题视为不确定性下的机制设计问题,并提出了乐观的致命开关机制(OptGTM),激励代理商(即臂)真实报告上下文,同时最小化遗憾。我们还表明,如果不考虑代理商的策略性质,将导致线性遗憾。然而,在机制设计和遗憾最小化之间存在一种权衡,这个研究旨在提供对在线学习和机制设计交叉领域的洞察。
Jun, 2024