Jan, 2024

不确定环境中的安全强化学习

TL;DR在实际部署中的机器学习算法时,确保安全是一项重要的资产。现有的安全学习方法通常考虑连续变量,即回归任务。然而,在实践中,机器人系统还受到离散的、外部的环境变化的影响,例如必须携带一定重量的物体或在冻结、潮湿或干燥的表面上操作。这些影响可以建模为离散的上下文变量。在现有的文献中,如果考虑了这些上下文,大多数情况下是假设为已知的。在这项工作中,我们放弃了这个假设,并展示了当我们不能直接测量上下文变量时如何进行安全学习。为了实现这一点,我们针对多类分类导出了频率学派的保证,允许我们从测量中估计当前的上下文。此外,我们提出了一种通过实验识别上下文的方法。我们讨论了在哪些条件下我们能保留理论保证,并通过使用不同权重的相机测量的 Furuta 摆作为上下文对我们的算法的适用性进行了演示。