- 利用课程学习增强时空分位数预测:经验教训
使用创新的课程学习范式,从空间、时间和分位数角度分别针对性地处理三种形式的课程学习,并结合堆叠融合模块,提高了复杂时空问题的性能和学习效率。通过广泛的实证评估,展示了该框架的有效性,并通过详尽的剖析研究探讨了课程学习对提高时空数据学习效率的 - 在资源受限的边缘设备上部署 LLMs 的实践指南
通过对学习方法、个性化数据使用量、语言模型的类型和大小、压缩方法以及学习时间和目标用例难度之间的权衡进行实证研究,我们找到了一些用于将语言模型部署到资源受限设备上的指导方针。
- 分叉生成流网络
生成流网络(GFlowNets)是一种有前景的概率抽样框架,目前出现了一种新的家族。然而,现有的 GFlowNets 由于边缘流的直接参数化或依赖于可能难以扩展到大型操作空间的反向策略,往往导致数据效率较低。本文介绍了一种称为 Bifurc - 生物神经元和深度强化学习在模拟游戏世界的样本效率上竞争
生物系统与机器学习算法在完成任务所需样本数量上有何比较?通过将体外生物神经网络与最先进的深度强化学习算法在 “乒乓球” 游戏的简化模拟中进行学习效率对比,发现即使是简单的生物培养物在真实时间课程下,也比所有深度强化学习代理在各种游戏性能特征 - 自适应探索的近端策略优化
探讨了在强化学习环境下的探索与利用权衡,提出了自适应探索的近端策略优化算法(axPPO),该方法通过根据智能体的最近表现动态调整探索幅度,提高了学习效率,特别是在学习过程开始阶段需要大量探索性行为时。
- CAESAR: 通过收敛感知采样和筛选增强异构 MDP 中的联邦强化学习
研究了异构环境下联邦强化学习中的收敛感知采样与筛选聚合方案(CAESAR),通过将同一马尔可夫决策过程中学习的代理的知识有选择地吸收到更优的对应代理中,显著提高学习效率
- Unifews:用于图神经网络高效稀疏化的统一逐元素稀疏化
通过在个别矩阵元素上考虑统一图传播和权重变换操作,并进行联合边权稀疏化以提高学习效率,Unifews 在逐渐增加稀疏性的情况下适用于不同的架构设计,并在理论上证明了较低的计算负载以及稳定的近似学习目标。通过广泛的实验评估,Unifews 在 - 多智能体强化学习与奖励机器的层次
本文研究利用奖励机器(RMs)来指定奖励函数,从而利用任务中高级事件的先前知识来促进学习效率的合作多智能体强化学习(MARL)问题。我们提出了具有层次结构的高级事件的多智能体强化学习(MAHRM),能够应对多智能体之间事件可以并发发生且代理 - 神经网络中的维度抽象的关系归纳偏好
研究关系瓶颈对因式表示学习和处理灵活性的影响,并证明该瓶颈不仅改善了泛化和学习效率,而且与人类行为偏差相一致,从而促进了抽象表示的产生,使处理灵活性类似于符号。
- DINOBot:通过视觉基础模型的检索和对齐进行机器人操作
提出了 DINOBot,这是一个新颖的机器人操作的模仿学习框架,利用 DINO 训练的视觉变压器从图像级别和像素级别的能力。通过一系列的现实世界实验,表明利用视觉基础模型的图像级别和像素级别属性可以实现前所未有的学习效率和泛化能力。
- 分层变压器是高效的元强化学习者
Hierarchical Transformers for Meta-Reinforcement Learning (HTrMRL) is an online meta-reinforcement learning approach tha - DRLC:来自 LLM 批评者的强化学习与稠密奖励
通过引入批评语言模型的框架,利用密集奖励对强化学习中的稀疏奖励进行补偿,本研究在情感控制、语言模型去毒化和摘要生成等三个文本生成任务中验证了该方法的有效性,实验证明在训练过程中引入人工密集奖励相较于以整体奖励为基线的 PPO 算法能够稳定提 - 高效的二阶段线下深度强化学习与偏好反馈
在这项工作中,我们考虑了线下基于偏好的强化学习问题。我们关注先前强化学习从人类偏好中采用的两阶段学习方法。我们发现,在线下 PBRL 设置中应用两阶段学习存在挑战,即在第二阶段学习期间学到的效用模型可能对学习代理优化来说过于困难。为了克服这 - AAAI不是所有任务都一样困难:具有动态深度路由的多任务强化学习
该研究通过动态深度路由(D2R)框架实现多任务强化学习,其中通过绕过中间模块灵活选择不同数量的模块来提高数据效率并解决不同策略的路由路径问题。该框架进一步引入 ResRouting 方法解决行为策略和目标策略在离策略训练过程中的差异路由路径 - 关于操作中检索、对齐和回放的有效性研究
通过实现三个阶段的推理过程(检索阶段、对齐阶段和重演阶段),本文证明了利用视觉观测的模仿学习方法在机器人交互中具有高效的学习效果,并实现了跨类别和类内的泛化能力。
- Auto MC-Reward:使用大型语言模型自动生成密集奖励以加强《我的世界
本研究介绍了一种名为 Auto MC-Reward 的高级学习系统,它利用大型语言模型(LLMs)自动设计密集奖励函数,从而提高学习效率。
- 偏差弹性多步离策略目标条件强化学习
通过解决多步 GCRL 中的偏差问题,本文提出了一种方法来提高学习效率,并在实证研究中证明该方法在十步学习场景下能够优于基线和多步 GCRL 的几个先进模型。
- MobileCLIP: 多模态加强训练的快速图像 - 文本模型
在这项研究中,我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列,通过一种名为多模态增强训练的新颖且高效的训练方法,利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移,将额外的知识存储在增强数据集中而避免了训练时计 - 通过生物启发的随机组调整进行任务适应
脑表示必须在一般性和适应性之间取得平衡,神经编码捕捉世界的一般统计规律,同时根据当前目标动态调整,其中一方面的适应性是基于任务相关性随机共调制神经元的增益,这些波动然后向下传播以指导决策。我们通过随机增益调制对卷积网络进行微调,显示优于确定 - 高效视频特定人体姿势估计的主动迁移学习
采用主动学习和迁移学习相结合的方法,通过量化评估标准来有效地提高人体姿势估计器的学习效率,并解决训练和测试数据之间的领域差异问题。实验证明,该方法提升了学习效率,并胜过了比较方法。