使用深度强化学习进行代价昂贵的特征分类

AAAINov, 2017

使用深度强化学习进行代价昂贵的特征分类

Classification with Costly Features using Deep Reinforcement Learning

Jaromír Janisch, Tomáš Pevný, Viliam Lisý

TL;DR本文研究一个分类问题，针对特征的代价进行优化，通过应用神经网络的顺序决策方法来解决分类问题，表现与专为此问题开发的算法相当，并且灵活性高，可通过引入预先训练的高性能分类器来改进。

Abstract

We study a classification problem where each feature can be acquired for a cost and the goal is to optimize a trade-off between the expected classification error and the feature cost. We revisit a former approach

classification feature cost optimization sequential decision-making neural networks reinforcement learning

发现论文，激发创造

为何花更多钱，当你可以花更少钱：主动特征获取和分类的联合学习框架

提供了一个新的框架，通过强化学习问题对活动特征获取问题进行建模，并引入了一种更系统完善的特征子集编码机制，该方法使用无序 LSTM-based 的集合编码机制来进行学习，从而在包含有缺失条目的情况下得到了很好的应用，并在活动特征获取方面性能均优于其他基线系统。

Sep, 2017

不平衡分类的深度强化学习

基于深度强化学习的不平衡数据分类模型，通过将分类问题视为顺序决策过程，使用深度 Q 学习网络解决。在奖励函数和有益的学习环境的指导下，该模型能够更有效地识别少数样本，具有优异的分类性能。

Jan, 2019

学习具有高成本特征的计算效率机器人

我们提出了一种通用的离线学习方法，其中考虑了输入特征的计算成本，通过将成本约束纳入到决策变换器的扩展中，从而在推断过程中限制其成本，使模型能够在每个时间步动态选择最佳输入特征。我们通过 D4RL 基准和类似于视频游戏中的复杂 3D 环境等多个任务展示了我们方法的有效性，并表明与传统方法相比，它能够在使用显著较少的计算资源的情况下实现类似的性能。

Aug, 2023

深度强化学习实现成本敏感的投资组合选择

本研究提出了一种基于深度强化学习的成本敏感投资组合选择方法，使用两个投资组合策略网络提取价格序列模式和资产相关性，通过新的成本敏感回报函数约束成本并实现最大的累积回报，经实际数据验证，该方法具有良好的获利能力、成本敏感性和代表能力。

Mar, 2020

深度强化学习的浅层更新

本研究提出了一种名为最小二乘深度 Q 网络 (LS-DQN) 的混合方法，它将由深度强化学习算法学习的丰富特征表示与线性最小二乘方法的稳定性相结合。实验表明，与原始的深度 Q 网络 (DQN) 和 Double-DQN 相比，LS-DQN 在五个 Atari 游戏中均表现出显著的性能提升，此方法优越的性能主要归功于优化最后一层时所使用的大批量线性最小二乘方法。

May, 2017

CostNet: 目标导向强化学习的端到端框架

本文引入一种新的强化学习算法，通过学习马尔可夫决策过程中两个状态之间的距离来预测，距离度量作为内在奖励被用于推动智能体的学习。实验结果表明，相比于模型无关的强化学习，该算法在多个测试环境中具有更好的样本效率。

Oct, 2022

通过强化学习提高特征选择的分类性能

本研究通过采用强化学习算法（特别是 Q 学习和 SARSA 学习）来解决特征选择的挑战，评估其在优化分类任务中的效果，并以乳腺癌科英布拉数据集（BCCDS）和三种归一化方法（最小 - 最大、l1 和 l2）作为实验验证。结果显示，QL@最小 - 最大和 SARSA@l2 分别达到最高的 87% 和 88% 的分类准确度，突出了基于强化学习的特征选择方法在优化分类任务中的有效性，提高了模型的准确性和效率。

Mar, 2024

通过贝叶斯深度 Q 网络实现高效探索

这篇论文研究了高维情境下的强化学习，提出了两种基于乐观法和后验采样的算法来解决此问题，并扩展了该方法应用在深度强化学习上，所提出的贝叶斯深度 Q 网络通过采用贝叶斯线性回归的方法调整 Q-networks 的学习方式，使其能够充分平衡探索与执行间的权衡，更加有效地应用在 Atari 游戏中。

Feb, 2018

非稳态环境下具有昂贵特征的在线学习

在顺序决策问题中，我们扩展上下文奖励设置并允许智能体观察功能状态的子集，以同时最大化长期平均收益并在有限时间内保证减少。

Jul, 2023

基于特征聚合和深度强化学习的调查与一些新实现

本文介绍了针对有限状态折扣马尔可夫决策问题的近似解法 - 政策迭代方法，重点关注基于特征聚合的方法以及它们与深度强化学习方案的关系。本文提出了原问题状态的特征并且制定了一个更小的 “聚合” 的马尔可夫决策问题，其状态与特征相关。我们讨论了这种聚合的性质和可能的实现，其中包括一种利用深度神经网络或其他计算进行特征构建的新近似政策迭代方法。我们认为，通过聚合提供的特征的非线性函数比神经网络强化学习提供的特征的线性函数更能够准确地逼近策略的成本函数，从而潜在地导致更有效的政策改进。

Apr, 2018