关键词probabilistic guarantee
搜索结果 - 4
- InstanT:基于实例依赖阈值的半监督学习
我们提出了一种基于实例的阈值函数,通过利用实例级别的模糊度和伪标签的实例相关错误率,为所有无标签实例设计了新颖的实例相关阈值函数,从而具有最高的自由度,同时为伪标签的正确性提供了有界的概率保证。
- 基于采样规范的智能能源系统学习控制的保护
探讨强化学习在控制能源系统中的挑战,其中除了性能要求外,还有额外的安全要求,如避免停电。我们详细介绍了如何通过离散化成线性时间逻辑(LTL)来加强实时时间逻辑中的这些安全要求,以使满足 LTL 公式意味着满足原始的安全要求。离散化使得先进的 - 具约束的有限时间 MDP 的高样本效率算法
本文研究了约束马尔可夫决策过程,并提出了一种在线算法,该算法利用了有限时间视角下的线性规划公式来进行乐观规划,以提供概率上正确的 γ 优化策略,该算法逐渐逼近最佳结果,并且保证结果最多只是 γ 深度有损失的结果,并且在指定公差范围内具有概率 - 非凸优化中具有概率保障的随机梯度下降泛化误差界
本文探讨了深度学习模型的一种优化方法 —— 随机梯度下降在泛化能力上的稳定性,提出了一种基于梯度方差的稳定性指标,并在此基础上分别分析了常规非凸损失函数、梯度主导性损失函数和带强凸规则化器的问题,得到了一系列改进的泛化误差界。