基于传感器的机器人控制的基本限制
本文提出了一种在部分可观察的、动态和稀疏采样环境下进行自主传感器控制的方法,特别是在射频 (RF) 频谱监测方面,采用预测和信息增益奖励的 DAN 强化学习框架,并使用来自 RF 领域有限的样本迭代改进环境模型。通过基于不同复杂度和评估指标的模拟实验,验证了该方法优于基线专家设计控制器且适应非平稳环境的鲁棒性。
Nov, 2022
本文提出了一种基于强化学习的方法,用于合成具有丰富感知模态(例如视觉或深度)的机器人系统的任务驱动控制策略。该方法学会创建一种任务驱动表示来计算控制动作,以实现控制动作仅依赖任务相关信息。实验结果表明,我们的算法产生的任务驱动策略通常比标准策略梯度方法更加鲁棒性。
Feb, 2020
本文提出了基于信息理论思想的有限理性理论,并提供了将自由能量函数作为表征有限理性决策的目标函数的概念上的理据。该文讨论了单步决策以及如何使用等价变换将其扩展到序贯决策,扩展后得到的类别决策问题非常广泛,包括古典决策规则等极限情况以及可信和风险敏感规划。
Dec, 2015
该研究旨在使用奖励函数来有效地做出明智的决策,通过提出抽象观测模型来降低计算成本并推导出期望信息论奖励函数的界限以及价值函数的界限,同时,提出了一种用于改善聚合方法的方法,实现了相同动作选择的计算时间减少。
Jan, 2022
通过将有限理性概念与信息论观点相结合,将其融入博弈论框架中以预测自己及其它机器人或人类邻近代理的行为以及在其计算限制下采取行动,模拟与实际实验都证明这种方法可以帮助机器人推理其他代理的不同智能水平并计算出合理的策略。
Oct, 2022
本文提出了两种启发式策略,通过动态规划建立了最优总成本的下界,研究了信息获取率和可靠性的极限,证明了第一个启发式方法的渐近最优性,同时分析了第二个启发式方法在有噪声动态搜索问题中的性能。
Mar, 2012
本文研究了通过内部系统(机器人算法或软件)与外部系统(机器人本体及其环境)之间的交互所获取信息的编码和处理的下限,算法或软件的最弱内部系统能够实现被动(过滤)和主动(规划)任务,并介绍了信息转换系统的概念,证明了最少信息转换系统在合理的等效假设下存在且是唯一的,并将该理论应用于解决多个问题。
Aug, 2023
本文介绍了一种信息理论模型,它使用一个有限传输速率的通信通道作为决策代理行为的描述,并在此基础上研究了一种基于学习目标的容量有限的决策制定方法, 为实现高效的学习算法提供了贝叶斯遗憾界的保证。
Oct, 2022
本文探讨使用深度强化学习算法来进行机器人控制,并结合多个传感器的信息,提出了一种融合传感器信息并且在传感器故障时仍能稳妥地进行操作的深度神经网络架构,并在仿真与真实环境中进行了搜索与拾取任务的测试。
Mar, 2017
在不确定的世界中,使用 Bacchus、Halpern 和 Levesque 的框架和连续领域的扩展,以期望推理的方式进行基于状态的位置估计,并揭示了行为理论下的位置估计问题。此外,本文还表明,虽然行动可能以非标准的方式影响先验分布,但总体规范的副作用是产生了适当的后验信念。
Feb, 2014