- 公平聚类:评析、注意事项和未来方向
公平聚类是机器学习和运筹学中的一个基本问题,然而,在算法设计中考虑公平性已变得极其重要,因此公平聚类已经受到研究界的广泛关注。本文对公平聚类进行了批判性的审视,发现了一些被忽视的问题,例如缺乏明确的效用描述和在机器学习环境中考虑公平聚类算法 - 选择医疗机器学习模型的可解释性技术
在医疗保健领域,追求使用可解释的算法来协助医疗专业人员在多种决策场景中。针对预测性、描述性和相关性(PDR)框架,将可解释机器学习定义为一个能够明确且简单地确定数据中所含或模型所学关系对其功能和模型分类至关重要的机器学习模型,并根据后续操作 - 最小化 UCB:局部贝叶斯优化中更好的局部搜索策略
本研究中,我们提出了一种新的局部贝叶斯优化算法 MinUCB,通过在 GIBO 中将梯度下降步骤替换为最小化 UCB 的策略来改进了梯度下降方法,证明了在应用高斯过程作为替代物时,后者可以比直接梯度下降更好。此外,我们还通过前瞻策略改进了 - 元强化学习的理论分析:泛化界限与收敛保证
这项研究探索了元强化学习(Meta RL),通过对定义泛化限制和确保收敛的深入研究。通过采用一种创新的理论框架,评估了 Meta RL 算法的有效性和性能。研究分析了影响 Meta RL 适应性的因素,揭示了算法设计与任务复杂性之间的关系。 - 强化学习中的全局自由和实例相关固定函数逼近的遗憾界限
通过提出 UCRL-WVTR 算法,解决强化学习中长期规划问题;该算法实现了无视时间限制和依赖实例的特点,且具有计算效率;算法设计和细致分析基于函数近似,达到了无时间限制、依赖实例和尖锐后悔界限的目标;理论研究得到了大量的实验验证。
- 具有不确定性量化预测的在线算法
如何在设计在线算法中最佳利用不确定性量化预测,以及如何利用更一般形式的不确定性量化,提出了基于在线学习的框架来在多实例场景中学习如何充分利用不确定性量化作出最佳决策。
- 利用强化学习和变形金刚搜索高价值分子
通过对不同的文本语法设计和训练算法选择进行广泛的实验,我们提出了一种新的基于强化学习的分子设计算法(ChemRLformer),并通过对 25 个分子设计任务的深入分析,包括计算复杂的蛋白质对接模拟,发现了这个问题领域的独特见解,并展示了 - 随机环境中的凸 Q 学习:扩展版
引入了对带有函数逼近的马尔可夫决策过程进行凸 Q 学习的第一种形式化。该论文主要贡献包括:对该凸松弛性质的属性进行了鉴定,提供了一种近似凸程序的直接模型无关方法,证明了所提出算法的收敛性,并介绍了计算速率。同时,该方法可以推广到多种性能指标 - 面向高效图像识别的低延迟统一动态网络
动态计算已成为提高深度网络推理效率的一种有前途的方法,我们提出了一个名为 “LAUDNet” 的框架,它集成了三个主要的动态范例,以缩短模型的延迟,通过算法设计与调度优化相结合,准确衡量动态操作延迟的潜在预测器指导。我们在多个视觉任务上测试 - 有害 AI 言论的责任在哪里?
基于大量信息训练的生成式人工智能(特别是以文本为基础的 “基本模型”)在产生问题性言论方面可能面临不同责任体系的风险。因此需要对这些模型进行 “红队测试”,以识别和缓解潜在的问题性言论。本研究考察了三种责任体系,并将其与普遍的红队测试模型行 - 具有状态不确定性的鲁棒多智能体强化学习
在多智能体强化学习中,本研究首次尝试模拟带有状态不确定性的马尔科夫博弈问题,提出鲁棒性的解决方案,并设计了两种算法,RMAQ 和 RMAAC,用于处理高维状态 - 动作空间,在存在状态不确定性下,实验证明这两种算法在多智能体环境中表现出色。
- 分配具有未知且随机奖励的可分配资源至武器
本文研究如何分配可分配的可再生资源,提出两种算法设计来达到最优值,同时给出了几种理论分析结果。
- 重新审视离线强化学习的极简主义方法
通过设计实验,研究离线强化学习算法中较不重要但仍影响效果的设计决策,并提出了一种集成这些设计元素的算法 ReBRAC,它在 51 个数据集上得到了最先进的表现。通过大规模实验,我们进一步证明了这些设计决策的功效。
- 在可计算性逻辑网中实现动态规划
本研究介绍了一种算法的新定义和相应的算法语言 CoLweb,该方法通过高级别的证明承载分布式算法设计方法简化了算法设计,同时统一了其他方法,如递归逻辑 / 函数算法,命令式算法等,并将 Horn 子句定义细化为两种类型,即盲目普遍量化(BU - ICML无政府联邦学习
本文提出了一种新的联邦学习模型 ——“Anarchic Federated Learning”,其中探索了参与联邦学习的工作者的自由度与收敛速度的平衡,并提出了两种算法,验证在现实数据集下的有效性以及成果。
- MM机器学习中的双层优化:算法设计与收敛分析
本篇论文提供了多方面的双层优化算法收敛速度分析,包括问题和算法两个方面,提出了更加高效可扩展的算法设计,并最终提出了新的随机双层优化算法降低了实践中的复杂度并提高其效率。
- 透过对抗样本镜头探索反事实解释:理论和实证分析
通过对对抗样本技术和因果解释方法之间的形式化相似性的系统分析,我们提出了关于机器学习模型与因果解释算法之间的理论和经验相似性的研究,这引发了现有因果解释算法设计和开发的基本问题。
- 在线样本子采样与一般函数逼近在强化学习中的应用
本研究设计了一种基于在线子采样技术的强化学习算法,可带有半参考函数近似和低切换成本,并使用上置信区间的探索驱动型奖励函数在无奖励情况下探索环境,其中计算时间为 O (poly (dH)),且保证在一定轮数的探索后能输出满足给定奖励函数的 e - 离线强化学习和模仿学习的联系:一则悲观的故事
提出了一种新的离线强化学习框架,将模仿学习和通用离线强化学习相结合,中心思想是测量从行为策略到专家策略的偏差,进一步研究了针对未知数据分布下的算法设计问题,提出了一种基于悲观策略的下限置信度算法 LCB,在多臂赌博机、情境赌博机和马尔可夫决 - 机器学习研究中的陷阱:重新审视开发周期
本研究从算法设计到数据收集到模型评估的全过程,引起注意常见陷阱,并提供实用建议以改进机器学习,通过案例研究强调这些缺陷在实践中如何发生以及在哪里可以进行改进。