BriefGPT.xyz
Ask
alpha
关键词
probabilistic guarantees
搜索结果 - 5
复杂航天器任务的屏蔽深度强化学习
通过使用线性时态逻辑(LTL)来形式化航天器任务和安全需求,以构建奖励函数和确保概率保障的盾牌,本论文研究了自主航天器控制和 SDRL 框架下的任务定义、安全性以及奖励结构的灵活性。
PDF
4 months ago
一个计算轻量级的安全学习算法
在这篇论文中,我们提出了一种安全学习算法,通过使用 Nadaraya-Watson 估计器而不是高斯过程,提供概率安全保证,并且在数据点数量方面实现对数级别的扩展。我们为估计结果提供了理论保证,将其嵌入到一个安全学习算法中,并在模拟的七自由
→
PDF
10 months ago
通过正式抽象实现非高斯噪声动态系统的鲁棒控制
该研究论文提出了一种新颖的控制器合成方法,它不需要任何明确表示噪声分布的方式,而是通过将控制系统抽象为捕捉噪声的有限状态模型,然后使用从场景方法中的工具来计算可能正确的限制,基于一些噪声的有限数量样本。通过缩小合成过程的复杂性,该方法在实际
→
PDF
2 years ago
AAAI
队列学习:一种提供服务质量的强化学习方法
本文介绍了一种基于强化学习的服务速率控制器,该控制器通过使用深度确定性策略梯度 (DDPG) 算法作为函数,将服务速率 (行动) 学习为串联服务系统中队列长度 (状态) 的函数,并提供关于系统端到端延迟的概率性保证。
PDF
3 years ago
ICML
雷电不会两次打中同一处:带有相互关联不确定性的稳健 MDPs
基于参数不确定性的马尔可夫决策过程,引入 “雷不会击中同一个地方” 原则,对关联的不确定参数进行建模,给出概率保证,并设计出可行的算法以计算最优控制策略。
PDF
12 years ago
Prev
Next