online reinforcement learning | BriefGPT

关键词online reinforcement learning

搜索结果 - 39

ICML离线强化学习中从单个任务中发现多个解决方案
通过研究在线强化学习，在少样本适应新环境的情况下，从一个任务中学习多种行为的优势已经被证明。然而，在离线强化学习中，学习多个解决方案的适当方法并未在先前研究中得到充分探讨。本研究因此解决了在离线强化学习中从单个任务中找到多个解决方案的问题。
PDF22 days ago
ICMLATraDiff：使用虚拟轨迹加速在线强化学习
使用离线数据训练生成扩散模型以解决在线强化学习中的稀疏奖励问题。
PDFa month ago
通过覆盖度了解偏好微调
通过对数据集覆盖性的严格分析，我们证明离线对比方法能够收敛到最优策略的全局覆盖条件既是必要条件又是充分条件，而在线强化学习方法则只需要弱的局部覆盖条件，这解释了为何在线强化学习方法在离线优化数据不足时表现更好。我们推导了一种混合优化算法 (
PDFa month ago
ICMLFuRL：基于模糊奖励的强化学习的视觉 - 语言模型
本研究调查了如何利用预训练的视觉语言模型（VLM）用于在线强化学习（RL），特别关注稀疏奖励任务下的奖励错位问题，提出了一种轻量级微调方法（称为 FuRL），通过奖励对齐和中继 RL 来增强 SAC/DrQ 基准智能体在稀疏奖励任务中的性能
PDFa month ago
在临床试验中监测在线强化学习算法的可信度
在线强化学习算法在临床试验中为参与者个性化治疗提供了巨大潜力，然而，在高风险医疗环境中部署在线自主算法使得质量控制和数据质量尤其困难。本文提出了算法保真度作为临床试验中部署在线强化学习算法的关键要求，并强调算法对于 (1) 保护参与者和 (
PDF4 months ago
基于贝叶斯方法的在线学习对于上下文不安定赌博算法的应用于公共卫生
基于贝叶斯学习和汤普森抽样的上下文多臂赌博机在线强化学习方法可以高效建模复杂的上下文相关和非固定的公共卫生干预项目中的资源分配，具有较高的性能表现。
PDF5 months ago
ICLR利用密度比例进行在线强化学习
该论文介绍了离线强化学习和在线强化学习的统一理论以及密度比建模在在线强化学习中的存在，并提出了 GLOW 算法和 HyGLOW 算法作为在线探索的方法。
PDF5 months ago
AAAI部分动力学知识的高效强化学习
本文研究在线强化学习的样本复杂性问题，并考虑了有关系统动态的部分知识，提出了一种基于 Q-learning 的算法，能够在具有有限 Markov 决策过程的系统中实现近似最优策略。
PDF6 months ago
为驾驶员和乘客提供更好的配对：Lyft 中的强化学习
为了更好地匹配驾驶员和乘客，我们改进了 Lyft 的核心匹配算法，使用在线强化学习方法实时估计驾驶员的未来收益，以寻找更高效的匹配。这是首个能够实时学习和改进的拼车匹配算法的记录实施，通过数周的实验评估，它使得我们的驾驶员能够每年为数百万额
PDF8 months ago
无穷时间 MDP 的离线数据高效在线学习：一种贝叶斯方法
本文研究了在线强化学习问题在无限时间段环境中的高效解决方法，其中假设有一个离线数据集作为起点，由一个未知能力水平的专家生成，我们展示了如果学习代理建模了专家使用的行为策略，它可以在最小化累计遗憾方面表现得更好，我们建立了一个前瞻性依赖先验的
PDF8 months ago
面向具有悔恨的对抗性线性马尔可夫决策过程的最优化
在线强化学习是研究的主题之一，尤其在线性 Markov 决策过程中使用了对抗性损失和强盗反馈，提出了两个算法以改善后悔性能。
PDF8 months ago
离线训练用于在线 RL: 解耦策略学习以减轻探索偏见
在在线 RL 或微调中，使用乐观探索策略来探索新的状态和行为是可取的，我们提出了一种 Offline-to-Online-to-Offline (OOO) 框架，通过在在线微调结束时进行离线训练来恢复更好的策略。
PDF9 months ago
在线线性 $ q^π $ 可实现 MDPs 中的 RL 与线性 MDPs 一样简单，只要你学会忽略什么
在线强化学习中的线性可实现的马尔可夫决策过程 (MDP)，提出了一种计算效率较低的学习算法，通过跳过特定状态转化为线性 MDP，并证明了该算法在这种情况下具有多项式样本复杂度。
PDF9 months ago
看得见，触得到：通过视觉激励学习触觉灵巧度
通过利用视觉奖励来优化敏感性策略的触觉适应 (TAVI) 框架，通过在线强化学习，在多指机器人上取得了可观的成功率，提高了性能。
PDF9 months ago
一个离线强化学习的真实四足行动基准
以离线强化学习方向研究四足机器人腿部鲁棒动作，通过经典模型预测控制方法收集数据集，并与基于模型无关的在线强化学习方法进行对比，发现离线强化学习算法在某些任务上能够超越模型无关的在线强化学习算法，但在稳定性和快速适应性方面仍存在差距，该研究为
PDF10 months ago
在线强化学习的样本复杂度界定
在线强化学习中的数据效率是一个核心问题，本文针对有限时间不均匀马尔可夫决策过程，证明了一种修改版的单调值传播算法在理论上达到了最小化遗憾度的最优性，并且没有任何预烧成本，其样本复杂度也是最优的。
PDFa year ago
一项关于自适应系统可解释的在线强化学习的用户研究
在线强化学习和深度强化学习在自适应系统和可解释性 RL 技术方面的实际应用以及用户研究。
PDFa year ago
通过多次重复采样，离线强化学习算法在连续控制中具有高样本效率
该论文提出了一种基于 SMR（样本多次重用）的强化学习方法，通过多次重复使用样本，可以在单次优化循环中更好地利用它们，从而显著提高了基本方法的样本效率。
PDFa year ago
一种融合估计和规划的最大化目标用于探索
本研究提出了一个易于实现的 RL 框架 Maximize to Explore（MEX），它通过最大化一个综合了估计和规划分量的单一目标，在自动平衡探索和利用方面实现了比现有算法更高的采样效率，并实现了更低的计算成本和更好的与现代深度 RL
PDFa year ago
DPOK: 用强化学习对文本到图像扩散模型进行微调
该研究提出了使用在线强化学习对文本到图像模型进行微调的方法，名为 DPOK，该方法将策略优化和 KL 正则化集成在一起，并通过增强学习来更新预训练的文本到图像扩散模型，实验证明该方法在图像文本对齐和图像质量方面优于监督式微调。
PDFa year ago