- SDSRA:一种用于有效策略学习的基于技能驱动和技能重新组合的算法
引入一种新的算法 - 技能驱动的技能重组算法 (SDSRA),该算法显著提高了在强化学习任务中实现最大熵效率的效果。通过将基于技能的策略集成到稳健的 Actor-Critic 框架中,SDSRA 在各种复杂和多样化的基准中展示出卓越的适应性 - MaxEnt Loss: 基于约束的最大熵法在外样本分布变化下的校准
介绍了一种解决超出分布校准问题的新损失函数,基于最大熵原理,通过加入在训练过程中观察到的有帮助的统计约束,实现更好的模型校准而不损失准确性,理论分析和实验证明了该方法在合成和现实世界基准上取得了最先进的校准效果。
- 最大熵异质代理镜像学习
本文提出了一种新的理论框架 MEHAML,利用最大熵原理设计最大熵 MARL Actor-Critic 算法,证明了所得算法具有联合最大熵目标的单调改进和收敛到量子响应平衡(QRE)的所需属性,实验结果表明,在三个基准测试中,HASAC(软 - 不确定最大熵原理
介绍不确定最大熵法,将黑盒机器学习模型的输出作为输入,使其能够使用噪声观测,同时提高预测精度。
- 具有约束恢复的逆强化学习
本文提出了基于最大熵原理的逆强化学习算法,用于推断约束非凸最优化问题的奖励函数和约束条件,并采用指数梯度下降算法解决约束问题。通过在网格世界环境中的实验验证了该算法的效力。
- ICCV基于实例级时序循环混淆的鲁棒物体检测
本文介绍了一个新的自监督任务,即基于实例级别的时间循环混淆,可以在不同运动中探索不变动结构,从而提高物体检测器在测试时的鲁棒性,实现了在训练物体检测器时采用自监督任务的一种可靠方法。
- ICLR最大熵强化学习 (可证明地) 解决了一些鲁棒强化学习问题
该论文证明了最大熵(MaxEnt)强化学习可以用于学习对某些动态干扰和奖励函数干扰具有鲁棒性的策略,是一种简单并具有吸引力形式保证的鲁棒强化学习方法。
- ICML最大熵模型推出:快速基于模型的策略优化,无需累计误差
本文提出一种最大熵模型回滚算法以解决深度神经网络动力学模型在长期预测时的累积误差问题。作者通过非均匀采样环境状态生成多样性模型回滚,并使用优先经验重放来完成最大熵采样标准。初步实验表明,该算法在效率和性能上都优于其他模型预测算法。
- FedMAX: 缓解激活函数分歧,实现准确且通信高效的联邦学习
本文介绍了一种新的现象 —— 激活散度,由于数据异构性(即多个用户的数据不是独立同分布的)而在联邦学习中出现。为了解决这一问题,本文提出了一种基于最大熵原理的先验,旨在使多个设备上同一类别的激活向量尽可能相似。实验证明,我们提出的方法在联邦 - ICLR逆强化学习的最大似然约束推断
本文针对马可夫决策过程上的反向强化学习问题,即通过一个环境模型以及一个奖励函数,推断出状态、行动、和特征限制,以此来激励智能体的行为。本文针对该问题提出了一个基于最大熵 IRL 的方法,并提出了一个迭代算法,以最大似然的方式推断最佳的约束条 - IJCAI最大熵深度强化学习的软策略梯度方法
本文提出了一种新的深度强化学习算法,利用基于熵正则化的期望回报目标推导出软策略梯度,将其与软 Bellman 方程相结合,得到了名为 DSPG 的最大熵深度强化学习算法,该算法采用双重采样方法确保学习的稳定性,有效提高了表现,克服了已有方法 - 用最具信息量的项集简洁地总结数据
本文提出了一种基于最大熵模型的算法 MTV,该算法采用迭代更新的方式发现给定数据中最丰富的项目集合,从而构建出简洁但非冗余的数据摘要,并通过实验证明其有效性。
- 强化学习与控制的概率推断:教程与综述
该研究介绍了一种基于最大熵的强化学习或最优控制方法,该方法在确定性动力学和随机动力学方面分别相当于精确概率推断和变分推断,并探讨了相关算法和未来研究方向。
- 多尺度稀疏微正则模型
本文研究了具有长程相关性的非高斯稳态过程的近似,其中使用微正则模型条件化模型。通过梯度下降算法,从而产生满足能量限制的微正则梯度下降过程,该过程与多尺度能量向量和 $f l^1$ norm 相结合,实现高斯、伊辛以及点过程的逼近以及图像和 - ICML软最大熵深度强化学习中的 Stochastic Actor-Critic 算法
本文提出一种基于最大熵强化学习框架的深度离策略演员 - 评论家算法,该算法通过离策略更新和稳定的随机演员 - 评论家公式结合,实现了在一系列连续控制基准任务上的最先进表现。
- NIPS从示范中学习任务规范
本文提出了一种从机器人演示中学习非马尔可夫奖励的方法,通过最大后验概率推断问题,采用最大熵原理推导出演示似然模型,并用有效的方法在候选规范的大池中搜索最有可能的规范,实验表明学习规范有助于避免由于即席奖励组合而经常出现的常见问题。
- 一种极小极大法用于监督学习
引入最大熵原理的一般化方法,应用于带有从数据中得出的经验边缘条件的分布集合,提出一种针对监督学习问题的通用 minimax 方法,其中最大熵机是一种新的最小化结构化分布中最坏情况 0-1 损失的线性分类器,并且通过实验表明可以优于其他线性分 - 最大熵深层逆强化学习
本文提出了一个利用神经网络的表征能力来近似复杂的非线性奖励函数以解决反向强化学习问题的一般框架,并展示了最大熵范例在 IRL 中的有效训练方法,具有与现有基准相当的性能,超过基于高度变化奖励结构的替代基准。同时,作者将基本架构扩展为包括更大 - 图像字幕的语言模型:习惯和奏效
该研究比较了不同的语言模型方法在图像字幕生成中的优缺点,并使用与众不同的语言模型方法,结合这些方法在 COCO 数据集上取得了新的记录性能。
- 协同过滤最大熵模型
利用最大熵的方法,通过求解一组线性方程来处理协同过滤中稀疏的训练数据和条件概率的计算问题。