- 在线牛顿方法在博弈凸优化问题中的应用
零阶强化学习的计算方法在对抗性和随机性设置中的性能界限及其与维度的关系
- 由专家建议的预测引发的偏微分方程的数值解
通过数值分析和实验,本研究调查了在线机器学习中,基于敌对环境中的预测问题和专家建议。通过相关的偏微分方程,我们研究了一个涉及两个人在每一步进行决策的重复博弈问题,并开发了数值方法来近似解决该方程,通过利用方程和解的对称性来大大减小计算域的尺 - 无悔的 M${}^{atural}$ 凹函数最大化:随机赌博算法和对抗完全信息设置的 NP 困难性
基于反馈的交互式最大化在线 M${}^{atural}$- 凹函数研究中,我们提出了 $O (T^{-1/2})$-simple regret 和 $O (T^{2/3})$-regret 算法,证明了贪心算法对于 M${}^{atural - 激励兼容的赌博算法:不再依赖重要性加权
提出了一种优化算法解决自利代理人可能不真实声明其偏好的问题,并达到接近最佳后悔度的保证,尤其在信息完全与朴素赌博设置中表现出色。
- 获得 2 根号 T 的校准距离的初级预测模型
提出了一个简单而有效、确定性算法,能够在对抗环境中以最多 2√T 的距离来获得校准误差,解决了存在性问题。
- BanditQ -- 在对抗环境中具有保证的每个用户收益的无懊悔学习
本文提出一种在线学习算法 BanditQ,基于队列理论和在线学习相结合,实现公平在线预测,并在信息完整的情况下,达到目标约束,同时实现 $O (T^{3/4})$ 的损失率。
- 带对手的在线学习:微分包容分析
该论文提出了一种在对抗性场景下的异步在线算法,利用差分包含和鞅论证了算法的收敛性和界限性,证明了该算法可以稳定地估计随机矩阵模型下的期望值,避免了在小部分噪声下的表现问题。
- ICML同时学习具有一般图反馈的随机与对抗赌博机
本文研究了在线学习中使用图形反馈的问题,提出了一种新的权衡机制,能够同时在随机环境和对抗环境取得最优结果,具有很好的推广性。
- ICML层次化软演员 - 评论家:通过相互信息优化的对抗性探索
本论文提出了一种利用互信息度量扩展软演员 - 评论者算法(Soft Actor-Critic)应用于层级深度 Q 网络(HDQN)架构的新方法,该扩展提供了在这种分层网络中鼓励探索的合适框架。该框架的一种自然应用是对抗性设置,其中元控制器和 - 自动时空连贯的视频上色
本文介绍了一种基于敌对生成网络的图像着色方法,可以实现在动漫制作领域中对线描进行快速稳定的着色,从而加快制作进度,减少成本。
- 关于利用专家建议进行预测的组合策略的渐近最优性
研究通过专家意见在对抗环境中进行预测问题时, 单独使用几何停止规则会导致过于保守的策略, 因此使用 comb 策略(在 4 个专家情况下为最优)来提高择优性能。
- NIPS随机和对抗多臂赌博问题中扰动的最优性
本研究探讨了在随机和对抗多臂老虎机问题中,基于扰动的算法的最优性。我们提供了对于子 Weibull 和有界扰动的统一遗憾分析,当收益是次高斯分布时。我们的界限对于具有参数 2 的子 Weibull 扰动是实例最优的,并且具有匹配的下支界。对 - 重复博弈中的政策后悔
本文重新审视了在线学习中的策略后悔问题,表明在某些情况下,外部后悔和策略后悔是不兼容的,而在自利智能体领域,如果使用某些算法,则可以保证外部后悔和策略后悔都是有利的。本文还介绍了一个新的均衡概念 —— 策略均衡,并表明粗略相关均衡是策略均衡 - 使用优化预言机在非凸博弈中学习
本文着重考虑在线学习在对抗性,非凸设置下,通过使用离线优化模型,得到了相对应的在线学习模型和统计学习模型之间的计算等价关系,同时提出了一种应用,将该方法应用于求解包括 GAN(生成对称网络)在内的非凸博弈的均衡解。
- 拜占庭随机梯度下降
本文研究了在对抗性环境下分布式随机优化问题,其中包括部分机器为拜占庭故障,提出了解决方案并证明了算法的采样和时间复杂度均达到信息上界。
- 网络学习中的弃权技术
在在线学习中,我们研究了算法可以弃权不进行预测的关键问题。我们展示了现有的在线算法和保证如何适应这个问题,并且给出了一个新算法 UCB-GT,它利用了历史数据并适应于随时间变化的反馈图。
- 高效在线学习和拍卖设计
本文研究了对手环境下的在线学习算法的设计,提出了广义随机扰动跟随者算法,且证明了在一定条件下它是牛逼优而且可以实现消失的后悔;同时,本文也提出了另一个基于拍卖设计的框架,用于帮助拍卖师在选举获得最佳的拍卖方式方面做出决策,并且得到相应的应用 - ICML保守型赌徒
研究一种新颖的多臂赌博问题,旨在解决公司在探索最大化收益新策略的同时,保持其收益在固定时间内持续增长的挑战。 通过提出自然而又新颖的策略来维护限制,我们在随机和对抗设置下分析了限制维护的代价。
- 具有次线性遗憾的终身强化学习安全策略搜索
开发一种在对抗环境下实施多任务在线学习、可以执行安全约束的终身策略梯度学习算法,通过在基准动态系统和四旋翼控制应用中验证,实现了终身策略搜寻的次线性遗憾。
- 朝着专家建议预测的最优算法
本文研究了在对手设置下采用几何停止时间进行专家建议的预测经典问题。对于 2 个专家的情况,Cover 提出了最优算法。对于三个专家的情况,我们设计了最优算法和对手,并证明了该算法与一个特定的随机对手的概率匹配算法(类似于汤普森抽样)是最优的