- 关于具有多臂赌博反馈的激励兼容在线学习中确切真实性的价格:WSU-UX 的遗憾下界
自利的专家问题中希望设计出一种激励兼容(IC)算法,使得每个专家最佳策略是真实报告,同时确保算法与最佳信念专家的遗憾是亚线性的。
- WWW选择哪个 LLM?具有收敛意识的增长式时间赌博的在线模型选择
提出了一种时间递增的强化学习算法 TI-UCB,用于在模型选择中预测性能的增长趋势并平衡探索与开发的权衡,通过对分类模型选择和在线选择 LLMs 进行验证,实验证明了该方法提高了模型选择的效率和经济性。
- 多个非近视代理人的重复合约:政策遗憾与有限责任
研究重复合同中的非响应均衡、赌博算法和有限责任合同的对策理论。
- 引导农民识别最佳作物管理的高效风险意识策略
本项研究旨在探讨如何在不增加农民损失的前提下,寻找最佳农业肥料管理策略。利用一种名为 “赌博算法” 的模型,通过风险感知的度量标准和新颖的农学指标来比较农业肥料的效果,提高农户抵抗风险的能力。
- AAAI数字市场中的竞争、对齐和平衡
该论文研究了基于数据驱动市场中较少被研究的领域,介绍了一种市场模型,发现市场竞争不能完美地使市场结果与用户效用相一致,具有一定的偏差。
- 批量蒐集资料的推断
本文发展了一种基于批处理数据的自适应数据收集的带状算法推断方法,证明了普通最小二乘估计器在标准的赌臂算法收集数据时不是渐近正常的,提出了批处理 OLS 估计器,并证明其可以适用于多臂和情境赌臂算法并且对随机变量鲁棒。
- 在线连续子模最大化:从完全信息到 Bandit 反馈
本文提出了三种在线算法,分别用于子模最大化问题中的函数渐变计算优化、带赌博的子模最大化问题和响应式带乘积集约束的带乘积子模问题。三个算法在达到 $(1-1/e)$ -regret bound 的前提下,分别取得了复杂度为 $O (T^{4/ - 垃圾进去,奖励出来:多臂赌博机中探索的自举方法
本文提出一种基于非参数 bootstrap 和伪奖励的乐观探索策略 Giro,通过对探索历史进行随机化以探索未知的领域,该方法不仅在 Bernoulli Bandit 问题上表现良好,在结构化问题上也可以得到广泛的应用。
- 最佳两种选择:随机和对抗臂
通过结合 Exp3 和 UCB1 两个先前算法的优点,我们提出了一种新的、在对抗性奖励和随机奖励两种情况下表现最优的 bandit 算法 SAO。
- 树搜索的贪心算法
本文从树搜索、乐观算法和上置信界等方面入手,研究了平滑树和无限树的效率和有限后悔算法,提出了基于 UCB 的乐观算法和 Flat-UCB 算法,并在一个全局优化问题中展示了这些方法的应用。