policy learning | BriefGPT - AI 论文速递

关键词policy learning

搜索结果 - 163

合作离线多智能体强化学习中的协调失败
离线多智体强化学习通过静态经验数据集来学习最优的多智体控制，但从静态数据中进行学习面临一些独特的挑战。本文聚焦于协调失败问题，并研究了在离线数据中联合动作在多智体策略梯度方法中的作用，提出了一种基于数据的 ' 最佳响应 ' 方法，并通过分析
PDF3 days ago
ARDuP：Active Region 视频扩散技术的通用策略
基于文本定义目标的视频规划器生成未来帧以可视化计划行动，从而导出控制行动，本文介绍了一种名为 ARDuP （Active Region Video Diffusion for Universal Policies）的视频策略学习框架，通过强
PDF15 days ago
OMPO：一种面向策略和环境变化的强化学习统一框架
用各种策略和动力学集合的环境交互数据训练强化学习策略面临着基本的挑战，现有研究往往忽视由策略或动力学变化引起的分布差异，或依赖于带有任务先验知识的专门算法，从而导致子优的策略表现和高学习方差。本文提出一种统一的在线强化学习策略学习策略和动力
PDFa month ago
高效的保守世界模型下的模仿学习
我们通过对专家演示进行政策学习来解决没有奖励函数的问题，并提出了将模仿学习视为微调问题的方法，通过在高维原始像素观测中在 Franka Kitchen 环境上取得了最新的最佳性能，只需要 10 个演示且没有奖励标签，同时解决了复杂的灵巧操作
PDFa month ago
ICML安全强化学习的一致性可行性表征学习
在安全强化学习领域，通过结合表示学习和可行性导向目标，我们引入了一种名为 Feasibility Consistent Safe Reinforcement Learning（FCSRL）的新框架，以从原始状态中提取与安全相关的信息从而增强
PDFa month ago
在线策略学习与矩阵补全的推理
基于矩阵完成赌徒问题 (MCB) 和在线梯度下降算法，探索碎状历史特征的在线决策问题。研究比较不同勘探概率和步长调度下的策略学习和后悔表现，同时研究基于反向反比加权 (IPW) 的去偏方法和在线策略推理的通用框架，通过实验验证理论结果，应用
PDF2 months ago
使用两只多指手学习视触技能
通过学习人类示范，我们利用双臂系统和视触数据探索实现类似人类敏捷性、感知体验和运动模式的目标。我们开发了一种低成本的手臂远程操作系统并重新利用配备触觉传感器的义肢手，通过采集到的视触数据学习完成长周期、高精度任务。我们的结果在双臂多指操作和
PDF2 months ago
ViViDex: 从人类视频中学习基于视觉的灵巧操纵
我们的研究旨在通过学习一种统一的基于视觉的策略，使多指机械手能够在各种姿势下操纵不同的物体。我们提出了一种新的框架 ViViDex，通过使用强化学习和轨迹引导奖励训练每个视频的基于状态的策略，从而获得视觉自然且物理可行的轨迹，并在不使用任何
PDF2 months ago
推断行为特定的上下文在强化学习中提升零样本泛化能力
本文中，我们在强化学习中解决了零样本泛化的挑战，通过理解和利用环境的上下文线索，将上下文表示的学习与策略学习相结合，提出了一种算法。我们的算法在各种模拟域中展示了改进的泛化能力，在零样本情境中优于先前的上下文学习技术。通过同时学习策略和上下
PDF3 months ago
多样化的随机化价值函数：离线强化学习的可证明悲观方法
离线强化学习面临分布偏移和不可靠价值估计，本文提出了一种新策略，采用多样化的随机化值函数估计 $Q$ 值的后验分布，并应用适度的价值惩罚方法来确定鲁棒的不确定性量化和 $Q$ 值的较低置信区间。通过提高随机化值函数的多样性并引入一种多样性正
PDF3 months ago
高效同时学习与评估的抢救法
引入了 “cram” 方法，一种通用且高效的方法，用于使用通用的机器学习算法进行同时学习和评估。我们展示了该方法在政策学习环境中的应用，证明了该方法的一致性和渐进正态性。还通过广泛的模拟研究和针对实际问题的随机临床试验应用了该方法，并讨论了
PDF4 months ago
全球稳定的神经仿真策略
通过引入稳定神经动力系统（SNDS），我们提出了一种保证稳定性的模仿学习方案，该方案通过联合训练策略和对应的 Lyapunov 候选者来构建具有正式稳定性保证的策略。我们在模拟环境中进行了广泛的实验并成功地将训练得到的策略部署于真实的机械臂
PDF4 months ago
基于帕累托最优的短期与长期治疗效果估计和策略学习
该论文研究了 Pareto 最优估计和政策学习方法，用于识别最有效的治疗方法，通过权衡短期和长期效果最大化总奖励，解决多目标优化和冲突问题。
PDF4 months ago
离线技能扩散的稳健策略学习
通过离线数据集学习的、能够在不同领域中应用的多功能技能是一项全新的离线技能学习框架 DuSkill 的核心，通过引导式扩散模型生成可以应用于任务的多功能技能，从而增加不同领域中策略学习的稳健性。
PDF4 months ago
ICLR基于语言引导的状态抽象学习
使用自然语言设计状态抽象来实现模仿学习的框架，该框架利用语言模型的背景知识和自然语言监督，自动构建针对未见任务的状态表示，并证明其提高了泛化性和稳健性，缩短了设计时间。
PDF4 months ago
具有动力学感知奖励的样本高效偏好强化学习
通过从代理行为的二进制反馈中学习到的动态感知奖励函数，我们展示了动态感知奖励函数如何使得偏好基础增强学习的采样效率提高一个数量级。通过迭代学习动态感知的状态 - 行动表示并从中引导基于偏好的奖励函数，我们实现了更快的策略学习和更好的最终策略
PDF4 months ago
上下文固定预算的最佳臂识别：具有策略学习的自适应实验设计
个性化治疗建议、最佳治疗方法鉴定、上下文信息、自适应实验以及策略学习是这篇研究论文的关键词，通过推荐最佳治疗方法的决策策略获得最小的预期简单后悔，同时为政策学习、实验设计和自适应福利最大化提供了新的方法。
PDF6 months ago
运动基元扩散：学习可变形物体的轻柔机器人操纵
机器人辅助手术中的政策学习存在数据效率低和多功能性方法不足的问题，本研究引入了运动原始扩散（MPD），一种新的机器人辅助手术中的模仿学习方法，专注于可变形物体的轻柔操控，通过将扩散型模仿学习（DIL）的多功能性与概率动态运动原始（ProDM
PDF7 months ago
基于语言条件的语义搜索导向的机器人操作任务策略
我们提出了一种基于语言条件的语义搜索方法，从可用的示范数据集中获取在线搜索策略，在 CALVIN 基准测试中超过了基线性能，并展现了强大的零样本适应能力，对于扩展基于在线搜索策略的任务具有巨大的潜力。
PDF7 months ago
关系神经网络能解决哪些规划问题？
本论文通过建立关系性神经网络的电路复杂度分析与目标回归搜索之间的联系，揭示了策略学习中的规划问题有三类，同时证明了电路宽度和深度与物体数量和规划周期成正比，从而得出了设计策略学习神经网络的实用性。
PDF7 months ago