BriefGPT.xyz
大模型
Ask
alpha
关键词
information-theoretic objective
搜索结果 - 4
使用简单序列先验的强化学习
使用信息熵的目标函数和可压缩动作序列作为先验,提出了一种新的强化学习算法,能够学习解决包含可压缩序列动作的任务。在一系列连续控制任务中表现比最先进的无模型方法更好,并且产生出强大的信息正则化代理,能够对噪声观测进行鲁棒控制和执行开环控制。
PDF
a year ago
无需对抗训练的不变表征
无需对抗训练,使用信息论优化能够直接获得可控转换的公平表示和生成建模的最新性能
PDF
6 years ago
基于前向仿真的机器人探索规划
本研究针对部分已知环境探索问题,以信息论目标函数为目标,将其视为部分可观察马尔可夫决策过程 (POMDP),并通过 open-loop 逼近算法求解。提出了新的互信息采样逼近方法用于移动机器人,结果显示 POMDP 探索算法在某些情况下可以
→
PDF
9 years ago
NIPS
通过相关性在高维数据中发现结构
提出了一种层次逐步抽象表示复杂数据的学习方法,该方法基于优化信息论目标,通过最大化多变量互信息来搜索最佳解释数据相关性的潜在因素集合,该方法无需监督,不需要模型假设,并且随着变量数量的线性扩展具有可行性,我们证明了 Correlation
→
PDF
10 years ago
Prev
Next