- AAAI概率神经电路
概率电路(PC)在最近几年中越来越受关注,作为一个灵活的框架,用于讨论支持可处理查询且足够表达复杂概率分布的概率模型。然而,可处理性是以牺牲表达力为代价的:PC 相较于神经网络来说表达能力较弱。在本文中,我们引入了概率神经电路(PNC),它 - 基于 VQC 的数据重上传强化学习:性能和可训练性
基于经验证据,本研究使用变分量子电路 (VQC) 作为函数逼近器构建了深度 Q - 学习模型,研究了该模型在经典控制基准环境中的性能和可训练性,探讨了数据重新上传对这些指标的影响,并发现 VQC 在这种环境中具有适用性,且在逼近 2 设计时 - 自适应集成 Q - 学习:通过误差反馈减小估计偏差
通过测试发现 Adaptive Ensemble Q-learning(AdaEQ)集成模型在 MuJoCo 基准测试中能够提高学习性能,该模型结合了模型识别自适应控制(MIAC)来实现有效的集成尺寸自适应,并通过逼近误差表征来灵活控制集成 - 一种融合估计和规划的最大化目标用于探索
本研究提出了一个易于实现的 RL 框架 Maximize to Explore(MEX),它通过最大化一个综合了估计和规划分量的单一目标,在自动平衡探索和利用方面实现了比现有算法更高的采样效率,并实现了更低的计算成本和更好的与现代深度 RL - 通过可微函数逼近离线强化学习的有效性能得到保证
使用不同 iable 函数类逼近的离线强化学习方法在实践中得到了广泛应用,它结合了各种具有非线性和非凸结构的模型,能够显著提高算法性能;本文分析了一种最悲观的算法,并证明这种方法的有效性,为探究强化学习与不同 iable 函数逼近方法提供了 - 带拓扑约束的多目标策略梯度
本文研究了针对连续状态空间和未知状态转移动态的拓扑马尔科夫决策过程(TMDPs)的策略梯度定理及其实现,进一步扩展了 TMDPs 在面对多种复杂问题方面的应用,提出了一种针对多目标导航问题的新算法,并在模拟环境和实际机器人上进行了演示。
- 基于价值和密度比实现的离线强化学习:间隙的威力
本研究针对离线强化学习中的样本利用效率问题,提出了基于地位结构的重要性采样(MIS)的悲观算法,并利用较弱的函数逼近前提给出保证。
- 数据编码对变分量子机器学习模型表达能力的影响
本文研究了数据编码策略对参数化量子电路作为函数逼近器的表达能力的影响,发现量子模型可以被自然地写成数据的部分傅里叶级数,通过多次反复简单的数据编码门,量子模型可以访问越来越丰富的频率光谱,发现存在一些量子模型可以实现所有可能的傅里叶系数集, - 基于因式策略的终身策略梯度学习:快速训练且不会遗忘
本研究提供了一种新的、基于生命全程政策梯度学习的策略训练方法,该方法可以直接训练终身函数逼近器,以便智能体在整个训练过程中从累积的知识中受益。本文表明,与单任务和学终身学习基线相比,我们的算法学习更快,收敛到更好的策略,并且在多种挑战性领域 - PolyGAN:高阶多项式生成器
本文介绍了 PolyGAN,它使用高阶多项式作为数据生成器,并通过使用两种张量分解来减少参数数量并展示了如何有效地实现分层神经网络,从而在不使用激活函数的情况下逼近数据分布,该方法在合成和真实数据(图像和 3D 点云)上的实验评估证明了 P - ICLR神经逻辑机器
该论文提出了神经逻辑机(NLM)这种结合神经网络和逻辑编程的神经符号架构用于归纳学习和逻辑推理,在小规模排序等任务上进行训练后,可以推广到大规模任务并在如家庭树和排序等任务中取得了优异表现。
- 多目标深度强化学习中的动态权重
本文提出了一种多目标 Q 网络,可以处理动态权重下的多目标强化学习问题,并引入了多样性经验回放方法以应对动态权重下的非稳定性问题。实验结果表明,该方法在权重变化场景和问题领域上的性能优于现有的算法。
- 非线性分布式梯度时序差分学习
提出了分布式渐进时间差分(TD)学习的变体,并设计了新的分布式 GTD2 和分布式 TDC 算法,以及分布式 Greedy-GQ 控制设置算法。证明了分布式 GTD2 和 TDC 算法在一般光滑函数逼近器中的渐近几乎确定性收敛性。
- 基于层次贝叶斯的梯度元学习重建
本文探讨了如何使用 Bayesian 模型和梯度下降进行 meta-learning,通过 MAML 算法应用到复杂的函数逼近器上,进一步提升了算法的性能,并利用近似推断和曲率估计技术提出了改进措施。
- 从嘈杂数据中学习解释性规则
本文介绍 Differentiable Inductive Logic 框架,结合了 Inductive Logic Programming 和神经网络,非常高效地训练模型。该框架不仅支持传统 ILP 系统擅长的任务,而且对于噪声和训练数据 - ICLREPOpt: 使用模型集成学习稳健的神经网络策略
通过采用一种集成学习算法和源域适应方法,EPOpt 算法试图克服用深度神经网络等丰富函数逼近器学习现实任务策略时遇到的复杂度和安全等难点,并能够学习到更健壮和更好的广义目标领域策略。