面向离线强化学习的价值感知重要性加权 | BriefGPT - AI 论文速递

Jun, 2023

面向离线强化学习的价值感知重要性加权

Value-aware Importance Weighting for Off-policy Reinforcement Learning

Kristopher De Asis, Eric Graves, Richard S. Sutton

TL;DR本文提出了一种基于价值感知的重要性权重方法，可用于增强学习的离线预测模型，并在实验中进行了评估。

Abstract

importance sampling is a central idea underlying off-policy prediction in reinforcement learning. It provides a strategy for re-weighting

importance sampling off-policy prediction value-aware importance weights reinforcement learning lower variance

发现论文，激发创造

重要性重采样用于非同策略预测

研究了用重要性重采样代替再赋权提高强化学习中离线预测的性能，减小了更新权重值函数的方差，并在多个案例中探究了其有关权的偏差和一致性。

Jun, 2019

使用估计行为策略的重要性采样策略评估

本文研究了马尔可夫决策过程中，利用重要性采样评估不同数据生成策略预期回报的问题。通过实验，我们发现使用估计的行为策略可降低离线策略评估的平均平方误差，尤其是在具有非马尔可夫性的情况下。

Jun, 2018

重要性加权的线下学习方法

离线策略优化，随机情境赌博问题，重要性加权估计，隐性探索估计，PAC-Bayesian 策略类的改进

Sep, 2023

黑盒重要性采样

本文研究黑盒重要性抽样方法，可计算从任何未知提议或黑盒机制生成的样本的重要性权重，允许我们使用更好更丰富的提议来解决困难问题，并提高了估计精度。

Oct, 2016

强化学习中的样本重要性加权转移

本篇论文提出了一种基于模型的技术，在传输体验样本时自动估算每个样本与给定目标任务的关联性，以及在 RL 问题中使用重要性权重来解决负迁移问题，模型的结果经实验证明比目前最新的方法具有更好的学习性能和抗差能力。

May, 2018

帕累托平滑重要性抽样

提出了一种使用广义帕累托分布来稳定产生的重要性权重的方法，其估计量通常变化很大，而且估计值可能存在右偏重尾的问题。该方法包括已稳定的有效样本量估计，Monte Carlo 误差估计和收敛诊断。

Jul, 2015

条件重要性采样用于离线学习

本文提出了一个基于条件重要性采样比的离线策略强化学习概念框架，探索了其应用于算法设计的新视角，并证实了它的理论意义及其派生算法。

Oct, 2019

基于状态重要性采样的低方差离线评估

该论文介绍了一种名为 SIS 的基于状态的重要性采样方法，用于解决强化学习中 target policy 的评估问题，并提供了一种基于协方差测试的自动搜索算法以确定最小均方误差的可忽略状态集。实验结果表明，与传统的重要性采样、逐决策重要性采样和增量重要性采样相比，SIS 具有更小的方差和更高的精度。

Dec, 2022

机器学习中的重要度加权研究简述

通过密度比重方法，本研究论述了重要性加权在统计学和机器学习中的广泛应用及其与相关研究的关联。

Mar, 2024

重要性加权和变分推断

本文研究使用重要性采样方法对概率变分推断的影响，并提出了 “重要性加权变分推断（IWVI）” 技术，它是 “增广变分推断” 的一种实例，能够改善低维准确性和高维收敛性，实验证实了其对概率推断的实用性。

Aug, 2018