动态、稀疏和部分观测环境中的信息增益传感器控制

Nov, 2022

动态、稀疏和部分观测环境中的信息增益传感器控制

Sensor Control for Information Gain in Dynamic, Sparse and Partially Observed Environments

J. Brian Burns, Aravind Sundaresan, Pedro Sequeira, Vidyasagar Sadhu

TL;DR本文提出了一种在部分可观察的、动态和稀疏采样环境下进行自主传感器控制的方法，特别是在射频 (RF) 频谱监测方面，采用预测和信息增益奖励的 DAN 强化学习框架，并使用来自 RF 领域有限的样本迭代改进环境模型。通过基于不同复杂度和评估指标的模拟实验，验证了该方法优于基线专家设计控制器且适应非平稳环境的鲁棒性。

Abstract

We present an approach for autonomous sensor control for information gathering under partially observable, dynamic and sparsely sampled environments. We consider the problem of controlling a sensor that makes partial observations in some space of interest such that it maximizes informa

autonomous sensor control information gathering radio-frequency spectrum monitoring deep anticipatory network reinforcement learning

发现论文，激发创造

混合信息驱动多智能体强化学习

利用信息理论模型作为启发式算法来帮助大规模稀疏状态的代理系统寻找高级策略的混合信息驱动多代理强化学习（MARL）方法被提出和研究。通过初步实验结果表明，这一方法可以使代理系统在探索稀疏状态空间方面获得高达三个数量级的有效性提升。

Feb, 2021

通过预测奖励最大化部分可观测环境中的信息增益

本文着眼于使用基于信念的奖励机制进行深度强化学习，提出了通过最大化任何凸函数的信念来实现近似的预测奖励，为深度强化学习的应用提供了新的解决方案，包括构建跟踪人员的传感器选择系统和学习时尚 MNIST 和 MNIST 数字分类的离散注意力模型等。

May, 2020

拥挤频谱环境下雷达检测和跟踪的深度强化学习控制

本文采用深度强化学习（Deep RL）中的非线性价值函数逼近来实现智能脉冲雷达和相邻通信系统的动态非合作共存，并通过学习调整频率和中心频率，最大化雷达探测性能，保持对频带的充分利用。我们通过实验证明，与策略迭代或感知和避免（SAA）方法相比，基于 Deep Q-Learning（DQL）算法的方法更有效地提高雷达的重要性能度量，包括 SINR 和带宽利用率，同时维持良好的距离分辨率。我们还将 DQL 方法扩展到包括 Double Q-Learning 和递归神经网络，形成 Double Deep Recurrent Q-Network（DDRQN）。最后，我们用软件定义雷达（SDRadar）原型系统的实验结果证明了本文提出的深度强化学习方法在拥挤频谱环境下显著提高了雷达探测性能。

Jun, 2020

基于传感器的机器人控制的基本限制

发展机器人传感器性能极限的理论和算法，定义了一个获取任务相关信息的量，利用信息理论的广义 Fano 不等式，在一步决策任务和多步问题上提供性能上限的算法，并在三个实例中进行了演示。

Jan, 2022

深度强化学习用于机器人控制的传感器融合

本文探讨使用深度强化学习算法来进行机器人控制，并结合多个传感器的信息，提出了一种融合传感器信息并且在传感器故障时仍能稳妥地进行操作的深度神经网络架构，并在仿真与真实环境中进行了搜索与拾取任务的测试。

Mar, 2017

无线传感器网络强化学习中的能效

本文提出了一种方法，利用强化学习技术，在能源意识系统中连续进行弱训练，从而提高算法性能并节省能源。这种方法通过利用环境中的其他传感器提供弱标签，然后训练出模型。本方法在模拟本地化环境上进行了评估，并在可用的普遍健康数据集上进行了验证，以利用接收信号强度实现真实的住宅本地化。我们展示了该方法实施成本低、需要更少的工作门槛和能够提供随时间增加的性能改进和能源节约。

Nov, 2018

信息增益引导无人机

这篇研究论文比较了两种用于推断气体羽流源项参数的无人机采样策略，并证明了深度强化学习在非等向气体羽流环境中相对于信息觅食法的优越性能。

Jan, 2024

使用信息准则实现自主水面车巡逻监测大型水资源的被审查深度强化学习

本论文提出一种使用水质传感器装备的自主水面船只的深度 Q-Learning 算法框架，解决它在静态和动态环境下的监控任务中的障碍物避免以及路径规划问题，结合信息增益来衡量不确定性，模拟实验表明噪声网络是增强探测的良好选择，该框架成功应用于自主监控下的水资源监测。

Oct, 2022

主动信息获取

该论文提出了动态信息获取策略及如何在学习搜索框架下实现，应用于情感分析和图像识别等任务，得到了很好的统计性能，同时有潜在的特点是关注实例的突出部分和较难部分。

Feb, 2016

MEXGEN：一种高效有效的信息增益近似用于信息收集路径规划

通过开发计算上高效且有效的算法，我们为在不确定信念状态下预测可能的传感器测量结果这一困难问题提供了一个更精确的近似解。实验结果表明，在多旋翼飞行器的广泛模拟和实地实验中，我们的方法在无线电源跟踪和定位问题中取得了改进的性能增益。

May, 2024