- 离散折扣马尔可夫决策过程中熵正则化误差的尖锐估计
研究了无限时间跨度的离散折扣马尔可夫决策过程在熵正则化下引入的误差,证明了该误差在逆正则强度下按指数级别减小,在加权 KL 散度和值函数中均具有问题特定的指数。通过使用自然策略梯度方法中常见的黎曼度量来计算熵正则化马尔可夫决策过程的解与未正 - 连续时间与空间中的策略镜像下降熵退火
熵正则化在政策优化中被广泛使用,有助于优化收敛,本文通过分析连续时间政策镜像下降动态,证明了固定熵水平下的动态指数级收敛到正则化问题的最优解,并通过调整熵正则化的衰减速率得出在离散和一般动作空间中的收敛速率。
- 带熵正则化的线性二次调节器快速策略学习
该研究提出并分析了两种新的策略学习方法:正则化策略梯度(RPG)和迭代策略优化(IPO),用于一类基于无限时间地奖励折扣的线性二次调节器(LQR)问题,该问题通过熵正则化进行优化。在假设能够准确评估策略的情况下,这两种方法都被证明在找到正则 - 有界理性曲线下的鲁棒对抗强化学习
基于熵正则化的量子对抗增强学习 (QARL) 是一种新方法,通过渐进式增加对手的理性来简化优化问题的复杂性,从而提高稳健性以及在多个 MuJoCo 运动和导航问题上的整体性能。
- SHACIRA: 面向隐式神经表示的可扩展哈希格压缩
SHACIRA 是一种简单但有效的通用框架,它通过在潜在空间中重参数化特征网格、应用熵正则化实现了对如图像、视频和辐射场等多种领域数据进行高水平压缩,超过了现有的 INR 方法,而无需大型数据集或特定领域的启发式算法。
- 用熵正则化提升推荐系统的主题提取
本文提出了一种新的方法 —— 熵正则化来解决推荐系统中主题内的关键词连贯性不足的问题,从而提高主题的可解释性,并确保主任务的性能竞争力。实验结果表明,该策略显著提高了主题的连贯性。
- Sinkhorn 算法重要性稀疏化
本文提出了一种新的重要性稀疏化方法,称为 Spar-Sink,用于高效地近似熵正则化的最优输运和不平衡最优输运解决方案。实验证明,Spar-Sink 在估计误差和速度方面优于主流竞争对手,并可以有效地估计和可视化心脏周期。
- 策略梯度算法通过延续隐式优化
本研究提供了关于策略梯度算法的新的理论解释和证明。同时,文章还提出,策略梯度算法中的探索是计算当前政策回报的连续,而策略的方差应该是适应历史的函数,以避免局部极值,而不是为了最大化政策的回报。
- WassersteinBarycenter 问题的异步去中心化算法
本文提出了一种基于异步去中心化算法的 novel stochastic block coordinate descent 方法 (A^2DWB),用于优化经验正则化 WBP 的对偶问题,实验结果验证了它相对于最新的同步算法具有卓越的性能。
- ECCV基于熵正则化的零数据重播的小样本类增量学习
本研究提出了一种基于数据回放的少样本类增量学习方法,并研究了使用生成器产生数据以解决存储、回放旧数据的隐私问题的技术,同时提出使用熵正则化来增加不确定性样本的有效性,并通过实验结果证明了该方法的可行性和有效性。
- 基于模型和策略熵正则化的基于模型仿真学习
使用基于生成对抗神经网络的方法进行模仿学习具有许多优点,但是由于使用了无模型强化学习算法,需要与实际环境进行大量交互来训练生成器。为此,提出了基于模型的熵正则化模仿学习算法(MB-ERIL),通过基于熵正则化马尔可夫决策过程,减少与实际环境 - 用于两人零和马尔科夫博弈的正则化梯度下降 / 上升算法
本文提出了一种用于在马尔可夫博弈中寻找纳什均衡的新方法,该方法结合梯度下降和熵正则化,获得了更好的收敛性能,并证明了该算法在合适的正则化参数选择下可以收敛到原问题的纳什均衡。
- 在構建越域檢測器時,正確分類預測樣本至關重要:對 Marek 等人(2021)的答覆
本论文探讨了利用生成对抗网络生成伪 OOD 样本来提高基于 IND 分类器对 OOD 样本检测性能的方法,并通过熵正则化项进行优化,同时观察研究表明更强的 IND 分类器能更好地识别 OOD 样本,希望这些发现可对其他研究人员提供有益的帮助 - CVPROSSGAN: 开放集半监督图像生成
介绍了一种具有挑战性的条件 GAN 训练方案,称为开放集半监督图像生成,该方案的训练数据集由带有标签的数据和属于带有标签的数据类别之一的样本的未标记数据两部分组成,通过熵正则化,使用有标记数据训练的分类器能够将样本的重要性量化为置信度,从而 - 一种用于图像复制检测的自监督描述符
本论文介绍了一种基于自监督对比训练目标的模型 SSCD,提出了熵正则化项以改进拷贝检测准确性,成功应用于实际网络规模应用中并被证明在各种设置下优于基线模型和自监督架构。
- 神经符号熵正则化
本文介绍了一种统一 neuro-symbolic 和 entropy regularization 的框架,并提出了一种神经符号熵正则化损失函数,用于半监督和全监督结构化预测实验中的有效性测试。
- 均场极限下带有熵正则化的 MDPs 策略梯度与神经网络逼近的收敛性
本文研究了策略梯度在无限时间,连续状态和动作空间,及熵正则化的马尔可夫决策过程中的全局收敛性,并证明了在符合足够正则化的情况下,梯度流指数级收敛到唯一的稳态解。
- 一种新的弱监督方法用于 ALS 点云语义分割
本文提出了一种基于深度学习的弱监督 ALS 点云语义分割框架,在不完整和稀疏标记的未标记数据中利用潜在信息。通过熵正则化、一致性约束和在线软伪标记策略等,显著提高了分类性能,且效率高于当前弱监督方法。ISPRS 3D Labeling Va - ICML离散化正则化的多智能体演员 - 评论家算法
本文研究了分歧规则化在合作多智能体强化学习中的应用,提出了一种新的脱机分歧规则化多智能体演员 - 评论家框架 (DMAC),理论上证明了 DMAC 更新规则是自然的脱机更新,并在原始 MDP 和分歧正则化 MDP 中保证单调政策改进和收敛, - ICLR策略梯度搜索中的探索改进:符号优化应用
本文介绍了两种探索方法 —— 熵正则化和分布初始化,用于解决基于神经网络的自动数学计算任务中的早期决策和初始化偏差问题,从而提高机器学习性能、样本效率和解决方案复杂性。