- 具有时序反馈图的对抗在线学习
基于分区策略,本研究提出了一种新的学习算法,用于预测与专家建议的问题并同时受限于反馈图结构,证明对于传递反馈图,该算法可以高效实现且达到最优遗憾界(与一个常数因子定量相近)的预测性能优化。
- 学习闭合信号流图
开发了一个学习算法,用于闭合信号流图 - 一种信号转导器的图形模型。该算法依赖于闭合信号流图与单字符有限自动机之间的对应关系,并演示了该过程导致了复杂性的真正降低:我们的算法在限制为单字符的加权自动机情况下优于现有的学习算法。
- CLIP 的多模态多标签分类
设计一个学习算法来处理图像和文本两个数据源,通过使用对比语言图像预训练作为特征提取器并探索不同的分类头、融合方法和损失函数来学习全面的语义特征表示,最终在公共 Kaggle 竞赛排行榜上获得超过 90% 的 F_1 分数。本文通过实验结果提 - DPO 和 PPO 的剥离:揭示从偏好反馈中学习的最佳实践
从偏好反馈学习的四个核心方面:偏好数据,学习算法,奖励模型和政策训练提示,我们系统地研究了这些组件对下游模型性能的影响,并提出了一种强偏好反馈学习的方法。研究发现,偏好数据、学习算法、改进的奖励模型和额外的无标签提示对模型性能都很重要。
- 潜在 MDP 中的强化学习是可行的:通过离线策略评估实现在线保证
我们介绍了没有任何附加结构假设的 Latent Markov Decision Processes (LMDPs) 的第一个样本高效算法,并建立了新的离线评估引理和 LMDPs 的新覆盖系数,通过这些结果可以推导出一种乐观探索算法的近似最优 - 算法稳定性可测试吗?在计算限制下的统一框架
算法稳定性是学习理论中的一个核心概念,它量化了算法对训练数据中微小变化的敏感性。如果学习算法满足特定的稳定性属性,这将导致许多重要的下游影响,如泛化性能、鲁棒性和可靠的预测推理。然而,最近的研究结果表明,对于黑盒算法而言,在有限来自未知分布 - 学习算法在集体行动中的角色
学习算法选择对于集体行动在机器学习中的影响至关重要。本研究通过实证结果和理论分析,展示了集体的有效性和成功性与学习算法的属性密切相关,强调了在研究机器学习中的集体行动影响时,考虑学习算法的必要性。
- 通过对齐锐度强大地学习单指数模型
在罚函数为 $L_2^2$ 的超验模型中,我们研究了学习单指数模型的问题,并提出了一种高效的学习算法,它在一系列分布和广泛类别的单调和 Lipschitz 链函数下,能够以常数因子逼近最优损失。这是第一个高效的常数因子逼近超验学习器,甚至适 - 内容调控中的推迟学习:人工智能与人类的相互作用
在线平台上成功的内容管理依赖于人工智能协作方法,这篇论文介绍了一种模型来捕捉内容管理中的人工智能相互作用,提出了一种近乎最优的学习算法来平衡选择性采样数据集的分类损失、未审核帖子的独特损失和人工审核系统的延迟损失。
- 随机凸优化的信息复杂性:泛化与记忆的应用
通过研究随机凸优化(SCO)中记忆和学习之间的相互作用,我们使用条件互信息(CMI)的框架精确刻画了学习算法的准确性和 CMI 之间的权衡关系,回答了 Livni(2023 年)提出的一个开放问题。我们进一步设计了一个对特定的 SCO 问题 - 通过学习学习算法实现更灵活的 PAC-Bayesian 元学习
我们介绍了一个新的框架,使用 PAC-Bayesian 理论来研究元学习方法。该框架相比以往的工作的主要优势在于它允许在任务之间的知识转移方面更加灵活。我们的框架的灵活性使其适用于分析广泛范围的元学习机制,甚至设计新的机制。除了理论贡献外, - 马尔可夫说服流程:从零开始学习说服
Bayesian persuasion and learning algorithms are used to address Markov persuasion processes where the sender has no prio - DsDm: 使用数据模型的模型感知数据集选择
利用优化问题的框架从候选数据中选择有机会最大化模型性能的子集,避免主观标准,并明确了学习过程如何利用训练数据进行目标任务的预测,从而极大地提高了语言模型的性能。
- ICLR在稀疏图上学习均值场博弈:一种混合图 ex 方法
学习大规模代理人群的行为是许多研究领域的重要任务。尽管多智能体强化学习(MARL)领域在解决这些系统上取得了重要进展,但对于许多代理人,解决方案通常在计算上不可行且缺乏理论保证。平均场博弈(MFG)解决了这两个问题,并可扩展为包括代理人之间 - 在线平台中概率反馈能推动用户影响吗?
内容推荐系统的负面用户影响通常被解释为平台目标与用户福利不一致。然而,本文揭示了即使平台目标与用户福利完全一致,学习算法也可能引起用户的负面影响。用户反馈速率的差异可能影响学习算法与不同内容的互动,进而无意中推广具有特定属性的内容。我们的研 - 未知上下文分布的上下文强化学习的最优交叉学习
在文中,我们解决了 Balseiro 等人提出的 “交叉学习” 设置中的上下文强盗算法设计问题,通过提供一个高效算法,其拥有几乎紧密(除对数因子外)的减悔上界 O(TK),与上下文数量无关。作为结果,我们得到了对于在未知值分布下学习进行首价 - HoloBeam:远场全息介质表面收发器中的最佳波束形成学习
使用固定预算多臂赌博框架开发了一种学习算法,通过初始值探索指定波束 forming 的相移参数及最大程度地增强接收器的接收信号强度,该算法在广泛的模拟中表现出优于现有算法的性能。
- 通过多元化揭示 OOD 推广的关键组成部分
多样化方法对无标签数据的分布敏感,单纯多样化无法实现 OOD 泛化,学习算法的选择至关重要,将导致精度绝对下降 20%;选择最佳学习算法依赖于无标签数据,同时无标签数据也依赖于学习算法的选择。增加多样性假设数量不能解决这些问题。以上发现为了 - AAAI离散时间主次均值场博弈的学习
利用基于 M3FG(major-minor MFGs)的学习算法,我们提出了一种新的离散时间版本的 M3FG,能够解决具有强影响力的主要玩家的问题,并在三个实例问题中验证了该理论结果的实际效果,从而为一类广泛可解的博弈问题建立了学习框架。
- 对比时刻:多项式时间内的无监督半空间学习
通过对未知对称一维对数凹分布的 d 维空间的 d 倍积的未知仿射变换的环境分布内带有一定间距的高维半空间的多项式时间学习算法,从一个组分分布的数据中删除至少一个 ε 分数的数据引入了半空间。值得注意的是,我们的算法不需要标签,并在这种分布假