- 学习向人群推迟决策的元学习方法
学习推迟(L2D)框架通过将困难决策交给人类专家,实现了自主系统的安全性和稳健性。我们在此工作中缓解了每个专家都是明确识别的假设,并设计了一个能够应对测试时从未遇到过的专家的 L2D 系统。我们使用元学习来实现这一目标,同时考虑了基于优化和 - 基于遗传编程的损失函数学习的快速高效局部搜索
本文提出了一种用于任务和模型无关的损失函数学习的新型元学习框架,通过混合搜索方法,首先使用遗传编程找到一组符号损失函数,然后对学习到的损失函数进行参数化和优化,实验证明该框架具有多样性与性能,在各种任务和特定神经网络结构上提供了改进的收敛性 - FORML:一种具有正交约束的元学习的黎曼海森自由方法
介绍了一种在 Riemann 流形上使用 Stiefel 近似的 Hessian-free 方法,通过使用 Stiefel 全连接层来增强基于梯度的元学习方法的表示重用,实验结果表明该方法在各种少样本学习数据集上优于现有方法,尤其是欧几里得 - 增强的上下文黑盒优化
RIBBO 是一种从离线数据中强化学习 Black-Box Optimization 算法的方法,采用表达能力强的序列模型学习多个行为算法和任务产生的优化历史,通过集成 regret-to-go tokens 来自动生成满足用户期望遗憾值的 - 知情元学习
在实际应用中,机器学习在嘈杂和低数据的环境下面临一个重要挑战,即如何有效地整合具有数据效率和鲁棒性的归纳偏好。本论文通过介绍一种新的混合范式,即信息元学习,旨在实现人类和机器之间跨任务知识共享的互补性,为信息元学习的基本组成部分和具体实例 - LiMAML: 通过元学习个性化深度推荐模型
通过深度神经网络和元学习算法,该研究论文提出了一种个性化推荐系统的创新解决方案,能够根据最新的用户交互信号进行模型更新并在在线推荐系统上高效部署,从而实现高度个性化的 AI 模型的部署和对应业务指标的显著改进。
- 推广奖励建模以进行超出分布的偏好学习
通过元学习方法,优化一个通用奖励模型来解决离群分布概率学习问题,并在两个文本生成任务中的 20 个保留领域的实验中,通过各种评估指标超过一系列强基准。
- 统一的任务嵌入跨多个模型:弥合基于提示的大型语言模型及其他模型之间的差距
在大型语言模型操作的梯度自由方式下,我们提出了一种统一任务嵌入框架(FUTE),将来自各种模型(包括较小的语言模型和使用不同提示的大型语言模型)的任务嵌入进行统一,从而扩展了现有任务嵌入方法在多模型场景中的应用范围和实用性。
- MetaTra:在未知领域中进行广义轨迹预测的元学习
通过提出一种名为 MetaTra 的基于元学习的轨迹预测方法,该方法将 Dual Trajectory Transformer 引入到不同情景中探索个体意图和群体运动模式之间的相互作用,进一步提出了一种模拟源领域和目标领域之间泛化过程的元学 - 将符号先验知识融入神经网络中的概念学习
通过使用元学习方法从符号贝叶斯模型的先验分布生成一组任务集,我们能够将快速概念学习所需的归纳偏倚转移到神经网络中,创造出具有对短逻辑公式表达的概念存在偏倚的神经网络,这些结果与人类表现高度一致。
- ICLR发现具有时间感知的强化学习算法
最近的元学习进展使得可以自动发现由代理目标函数参数化的新型强化学习算法。本文提出一种对两种现有目标发现方法进行简单扩展的方案,允许在智能体的训练过程中动态更新其目标函数,从而获得具有表达能力的进度表,并增加在不同训练时间范围内的泛化能力。
- 策略镜像下的元学习及其镜像映射
我们的研究发现,传统的镜像映射选择(NPG)在多个标准基准环境下往往产生次优结果。通过应用元学习方法,我们确定了提高性能的更有效的镜像映射,并分析了这些学习到的镜像映射的特点,揭示了某些设置之间的共享特征。我们的结果表明,镜像映射有潜力在各 - 通过学习学习算法实现更灵活的 PAC-Bayesian 元学习
我们介绍了一个新的框架,使用 PAC-Bayesian 理论来研究元学习方法。该框架相比以往的工作的主要优势在于它允许在任务之间的知识转移方面更加灵活。我们的框架的灵活性使其适用于分析广泛范围的元学习机制,甚至设计新的机制。除了理论贡献外, - ICLR通过符号方程学习生成灵活的黑盒优化器
通过符号方程学习,本文提出了一种名为 Symbol 的新框架,自动发现黑盒优化器,并通过深度强化学习的方式进行元学习,实现了超越现有基准模型的优化器,并展现了卓越的零样本泛化能力。
- 重新思考起点:通过合作预训练提升联合学习的性能和公平性
我们提出了一种协作预训练方法,CoPreFL,它通过设计一个预训练模型,能够为任何下游联邦学习任务提供良好的初始化,通过元学习算法在分布式场景中模拟下游任务,以适应任何未预料到的联邦学习任务,平衡平均性能和公平性,从而提高了平均性能和更公正 - 基于神经网络的时间点过程的元学习
提出了一种用于周期性感知预测短序列未来事件的元学习方法,通过点过程建模和时间周期模式考虑来提高事件预测性能。
- 上下文学习的信息论分析
通过引入新的信息论工具,我们在序列元学习上建立了一种优雅且非常通用的误差分解方法,分为三个组成部分:不可降低误差、元学习误差和任务内误差。我们应用这些工具对基于变压器的上下文学习进行分析,阐明了误差在训练序列数量和序列长度上的衰减规律。这一 - Proto-MPC:一种应用于四旋翼控制中的编码器 - 原型 - 解码器方法,用于挑战性风环境
通过 EPD 多任务元学习方法和 Proto-MPC 模型预测控制问题的集成,提高四旋翼机在动态变化任务中的适应性和操作能力,该方法在模拟中经验证明具有鲁棒的性能。
- 通用预测器学习
通过元学习的极限来将 Solomonoff 归纳嵌入到神经网络中,利用 Universal Turing Machines 生成训练数据,研究了元学习的极限以及其对神经网络的影响,实验结果表明 UTM 数据对于元学习是一个有价值的资源,并且 - 基於多模態融合的多視角教師蒸餾方法用於少樣本動作識別
在最近几年,少量样本行为识别引起了越来越多的关注。该领域通常采用元学习的范式。在有限样本的基础上,克服类别的重叠分布和异常值仍然是一个具有挑战性的问题。我们相信多模态和多视角相结合可以改善这个问题,取决于信息的互补性。因此,我们提出了一种基