- e-COP:策略的时序受限优化
本文介绍了 $ exttt {e-COP}$ 算法,这是第一个适用于有约束的强化学习 (RL) 的离散 (有限时段) 设置的策略优化算法。我们通过在离散设置下建立策略差异引理来解决这个问题,提供算法的理论基础。通过对 Safety Gym - 学习增强优先级队列
研究目标是在学习增强框架中设计优先队列,利用预测提高优先队列操作的性能,同时证明解决方案的最优性和讨论一些可能的应用。
- 线性二次调节器的样本复杂度:强化学习视角
我们提供了一个新的算法,可以在没有依赖于两点梯度估计的情况下,在大约 1/ε 个函数评估内确保 ε- 最优性,适用于具有未知参数的折扣离散时间 LQR 问题。
- 带有弗雷歇特 - 类型尾部分布的跟随扰动领导者:对抗性赌博机中的最优性和最佳选择之间的折衷
本文研究了在对抗性和随机的 K 臂赌博机中,随机扰动策略(Follow-the-Perturbed-Leader)的最优性。我们建立了对于扰动实现 O (√KT) 遗憾的充分条件,并展示了随机扰动策略在具有特定尾部分布的情况下实现的最佳两者 - 递归神经网络的梯度下降的收敛性:非渐近分析
我们分析了在有监督学习环境下使用梯度下降法训练的递归神经网络在动态系统中的表现,并证明了在没有大量过参数化的情况下,梯度下降法可以实现最优性。我们深入的非渐近分析 (i) 以序列长度 $T$、样本大小 $n$ 和环境维度 $d$ 为条件给出 - 解决层次化信息共享 Dec-POMDPs 的广义形式博弈方法
本文展示了如何在保持优化性的同时,通过分层信息共享来解开多个玩家的决策变量,应用最优性原理将一个单个阶段的子游戏进一步分解为更小的子游戏,从而使我们能够一次进行单个玩家的决策。我们的研究结果表明,利用这些发现的算法可以扩展到更大的多人游戏而 - 具有性能保证的机组组合预测器:支持向量机分类器
通过学习和预测常规单元的开关决策,可以为系统操作员提供一个实用的解决方案,从而加快计算速度。在这篇文章中,我们训练了线性和核化支持向量机分类器,这些分类器可以在适当正则化的情况下提供一个样本外性能保证,并转换为具有分布鲁棒性的分类器。通过在 - 基于不等式约束的零遗憾执行预测
对于受到不等式约束的可行预测问题,本文在鲁棒的原始对偶框架基础上提出了一种自适应的原始对偶算法,通过数值模拟验证了算法的有效性和理论结果,该算法在不等式约束下达到 O (√T) 的后悔与约束违规,使用了√T + 2T 个样本。
- 移动边缘计算系统中最小化信息时延的嵌套索引方法
本篇论文提出了一种优化移动边缘计算系统中信息鲜度的算法,使用了多层次 MDP 和嵌套索引框架,并设计了一种带有可证明渐近最优性的嵌套索引策略,与基准相比,我们的算法优化间隙缩小了高达 40%,并且当系统纲量足够大时,渐进地逼近了下限。
- 风险敏感强化学习是否得到适当解决?
本论文研究风险敏感强化学习,在已有 RSRL 方法存在优化偏差的理论下,提出新的 Trajectory Q-Learning 算法,能够有效地实现不同风险度量的风险敏感策略。
- 面向需求响应的最优定价 —— 非参数约束策略优化方法
本文提出了一种创新的非参数约束策略优化方法,解决了基于价格的需求响应问题中,如何保证策略的稳定性和最优性的问题,并且采用一种高效的策略优化算法,得到了比现有强化学习算法更好的表现。
- 压缩感知:离散优化方法
本文研究了压缩感知问题,提出了一种基于二阶锥的优化方法,该方法在证明一定正则参数条件下与基础凸优化问题等价的前提下,求解具有优良效果的稀疏向量,该方法相较于当前最优方法具有更高的稀疏性和更低的重构误差
- 凸四元数优化在信号处理中的理论和应用
基于广义 Hamilton-real (GHR) 微积分,我们建立了凸四元数优化的必要理论,提出了五个凸四元数函数的鉴别定理和四个强凸四元数函数的鉴别标准,同时提出了一个基本定理,证明了该理论及其在四元数信号处理中的应用。
- 强化学习中最小化 - 最优化奖励无关探索
本文研究了强化学习中的无奖励探索并设计了一种算法来提高其效率,该算法不需要提前了解奖励函数。算法最多需要采集 SAH^3/ε^2 个样本轨迹就能对于所有感兴趣的奖励函数找到 ε-optimal 策略,而且算法还能在样本量超过 S^2AH^3 - 用不可满足子集优化高效地解释 CSP(扩展算法和示例)
本研究基于 “最小不可满子集” 算法构建了一种寻找满足给定成本度量的最佳不满足子集的算法,并开发了加速解释序列生成的方法,实验证明,该算法在解释质量和计算时间方面比 “最小不可满子集” 方法更优。
- 通过未来依赖选项推广 LTL 指令
本文提出了一种新的多任务 RL 算法,通过离线策略学习选项来实现任务完成的全局最优性,并通过训练基于子目标序列的多步价值函数来更有效地传递满足未来子目标的奖励,从而解决了在 RL 中学习 LTL 任务代价函数时的一些问题。实验结果表明,该方 - 基于冲突搜索 (CBS) 和焦点搜索 (FS) 组合的任意时间 MAPF 解算器分析
本研究针对 CBS 算法的优化问题,设计并测试了多种不同的改进方式;研究结果表明,在多种情形下使用基于 Focal Search 的 anytime variant 算法优于传统的 CBS 算法。
- 发展网络二,其最优性和 emergent Turing Machines
本文论述了强人工智能的必要性,介绍了一种名为 DN-2 的新一代发展型网络,该网络能够自动构建一个流动的内部层次结构,以最大限度地利用有限的资源并具有最大似然性优势,同时通过实验证明了其通用性。
- AAAI拟合 Q 评估的超参数选择方法及误差保证
该研究针对 FQE 算法的超参数调优问题,提出了一种基于近似超参数选择框架的优化方法,该方法不需要超参数就可以定义一种量化且可解释的最优化标准,并验证理论误差界与实际观察的匹配。
- GLAN: 基于图的线性分配网络
本文提出了一种可学习的线性分配求解器,基于深度图网络实现,将费用矩阵转换为二分图,并通过节点和边的特征聚合和更新来选择可靠边,实验结果表明,与现有算法相比,该方法在保证准确性的前提下,能有效提高处理规模。此外,该分配求解器在多目标跟踪领域有