强化学习中干扰的测量和缓解

Jul, 2023

Measuring and Mitigating Interference in Reinforcement Learning

Vincent Liu, Han Wang, Ruo Yu Tao, Khurram Javed, Adam White...

TL;DR本文研究了在价值为基础的强化学习方法中广泛存在的灾难性干扰现象，提供了一种新的干扰度量方法，在多种网络架构下系统评估了这种度量与控制性能不稳定性的相关性，并提出了一类名为 “在线感知” 的算法来减少干扰，并表明它们在多个经典的控制环境中可以提高稳定性和性能。

Abstract

catastrophic interference is common in many network-based learning systems, and many proposals exist for mitigating it. Before overcoming interference we must understand it better. In this work, we provide a definition and novel measure of interference for →

catastrophic interference value-based reinforcement learning deep learning architectures online-aware algorithms control environments

发现论文，激发创造

训练韧性 Q - 网络抵御观测干扰

本文提出了一种基于因果推断的 DQN 算法 ——CIQ，用于提高在故障干扰下深度强化学习（DRL）的鲁棒性和性能。实验结果表明，CIQ 算法在多个 DQN 环境中能够获得更高的性能和更强的抗干扰能力。

Feb, 2021

实验中的干扰校正：抖音案例研究

研究探讨了如何评估拥有干扰性的双边内容市场中的策略效果，发明了一种基于 Differences-in-Qs 技术的 Monte-Carlo 估计器，并在 Douyin 的实验平台上实现了它，取得了低偏差、低方差和 99% 的均方根误差降低。

May, 2023

基于无人机三维网络的深度强化学习干扰管理：潜力和挑战

该研究提出了一种利用深度强化学习和多智能体强化学习解决多小区蜂窝网络中无线电干扰问题的方案，该方案可在不知道干扰频道信息的情况下提高干扰管理的效能，使民用无人机继续发展。

May, 2023

强化学习用于减轻太赫兹通信网络中的间歇性干扰

本文提出了一种基于强化学习的新框架，使用自适应的多阈值策略来高效地检测和减轻时间域中方向链接的间歇性干扰的问题。

Mar, 2020

基于深度学习和不确定性量化的自我改进干扰管理

本论文提出了一种突破性的自我提升的无线通信干扰管理框架，结合深度学习和不确定性量化，以提高整体系统性能。通过利用深度学习模型来预测最佳的干扰管理解决方案，该方法解决了传统基于优化算法的计算挑战。该框架突破性地认识到数据驱动模型的局限性，特别是在训练数据集未能充分代表的情况下。为了克服这些挑战，我们提出了一种不确定性量化方法，并附带了一个资格标准，以评估模型预测的可信度。该框架在模型生成的解决方案和传统算法之间以策略性的方式交替应用，根据量化的不确定性评估预测的可信度。实验结果验证了该框架的有效性，并展示了其在训练数据集未能充分代表的情况下相对于传统深度学习模型的优越性。本研究是在不确定性量化的视角下，利用自我提升的深度学习进行干扰管理的开创性探索。

Jan, 2024

用于 WLAN 干扰估计的跨网络可转移神经模型

本文采用基于实际数据的方法，研究 WLAN 中的干扰估计问题。并通过分析各种深度学习体系结构在准确性、泛化性和对异常数据的鲁棒性方面的控制比较，结论是图卷积网络（GCN）表现最佳，但如果不得不给出节点索引，则无法学习特定节点的行为。同时，还验证了 GCN 模型的泛化能力。

Nov, 2022

一种两部分的机器学习方法用于表征 A/B 测试中的网络干扰

提出了一种基于机器学习的方法来识别和表征异质网络干扰，该方法通过引入因果网络模式和透明机器学习模型来建立反映潜在网络干扰模式的最适 exposure mapping，为管理网络干扰和提高 A/B 测试精确性提供了全面的自动化解决方案。

Aug, 2023

基于目标学习的网络干扰下的双重稳健因果效应估计

利用神经网络适应目标学习技术提出的一种新的网络干扰下的双重稳健因果效应估计器，通过将理论条件转化为有针对性的损失函数，保证了估计器的双重稳健性，并通过理论分析揭示了与单一干扰模型相比更快的收敛速度。通过对两个现实世界网络上的半合成数据进行广泛的实验，证明了我们提出的估计器的有效性。

May, 2024

通过最大化转移和最小化干扰学习不遗忘的能力

通过 Meta-Experience Replay 算法，在经验回放的基础上进行基于元学习的优化，实现了对未来渐变更少的干扰和更多的知识迁移。在多个领域的实验中，该方法优于目前的基准算法。

Oct, 2018

自然物理定律学习环境中的灾难性干扰被缓解

在自然学习环境中，我们评估了基于反馈的简单复习方法在类似人类面临的符合幂律分布的环境中减轻灾难性干扰的程度，并比较了其与其他基线方法的表现。

Jan, 2024