在线硬约束多任务学习
本文提出了一种新颖的可控 Pareto 多任务学习框架,用于实现多个任务之间的实时权衡控制,其中超网络生成与偏好条件相关的模型参数,以实现基于不同权衡偏好的模型性能实时控制。
Oct, 2020
本文主要研究基于观测数据的离线多行动策略学习问题,特别地,该策略可能需要遵守预算约束或属于受限策略类,如决策树,提出了一个算法实现,能够达到渐近最小化风险后悔,这是在多行动设置中的首次结果,对于现有的学习算法有大幅度的性能提升。该文提出了两种不同的方法来解决当策略被限制为采用决策树形式时出现的附加计算挑战,一种方法使用混合整数方案,另一种方法使用基于树搜索的算法。
Oct, 2018
本文提出了一种多目标优化的多任务学习方法,通过迭代传递模型参数在优化过程中解决存在冲突的多个任务,并在图像分类、场景理解和多目标回归问题中进行了实验验证,结果显示该方法显著提升了发现满足 Pareto 优化的模型集合的状态,尤其在大规模图像数据集上的实验中,比现有技术取得了近两倍的超体积收敛速度。
Mar, 2024
本论文将多任务学习作为多目标优化来解决,并提出了一种基于梯度下降优化算法的上限边界,证明了在现实情况下优化这个上限边界将得到帕累托最优解,在多任务深度学习问题上应用我们的方法表现出比最近的多任务学习公式或每项任务训练的模型更高的性能。
Oct, 2018
多任务强化学习研究了多个任务同时有效解决的单一策略的约束形式,在中心化和去中心化设置下分别考虑了服务器和代理之间的全局约束问题,并提出了基于原始 - 对偶算法和基于采样的演员 - 评论家算法来解决这一问题,并研究了线性函数逼近的泛化扩展。
May, 2024
本文提出了一种在线学习方法,用于优化 Mixed Integer Programming (MIP) 中的启发式算法,以适应于不同的实例,并将大邻域搜索和 Diving 两类复杂启发式方法同时控制,实现 MIPLIB 2017 基准测试的节点数减少和速度提升。
Apr, 2023
该论文提出了一个通用框架,将在任务函数集合中以逻辑约束的形式的先验知识集成到核机器中,以及背景环境的部分表示,利用这些知识和监督示例中的信息与学习算法一起操作。
Feb, 2024
研究了如何适应信息获取成本昂贵的在线学习问题中平稳变化环境的影响;提出了一种算法用于处理标签有效预测的问题,并扩展到标签有效的赌博反馈和揭示行动部分监测游戏等领域,显著提高了现有算法的性能。
Oct, 2019