- 关于价值函数的有限表达能力及其与统计 (非) 效率的联系
通过一系列的案例研究,本文深入探讨了模型识别和无模型方法之间的权衡,重点关注了在政策评估的核心问题上,价值函数空间内无法准确表示转移动态信息的情况,揭示了价值函数的表达能力限制是低效的驱动因素。
- 在线基于模型的 Q 学习的有限时间误差分析与放松采样模型
通过理论分析和实证评估,本文探讨了当集成模型为基础的方法时,$Q$- 学习在样本复杂度方面相对其无模型对应物而言的样本效率的条件。
- 双重二元性:用变分原对偶策略优化进行受约束强化学习
在这项研究中,我们通过实施 Lagrangian 和 Fenchel 对偶性,将原始约束问题重构为无约束原始 - 对偶优化问题,以设计算法解决约束凸性马尔可夫决策过程中的凸性泛函最小化问题,其中访问度量是凸约束。同时,通过将访问度量嵌入到有 - SICNN: 软干扰消除启发式神经网络均衡器
在本文中,我们提出了一种名为 SICNN 的基于神经网络(NN)的等化方法,它通过模型的深度展开,在消除了模型方法的主要缺点的同时,还实现了对传统通信系统中的等化性能的显著提升。
- 双重不均匀环境下的离线评估
本篇文章提出了一种支持离线强化学习策略评估的新框架,该框架通过提出一种动态因子模型来处理强化学习中的双不均性,并在该框架下开发了一种同时支持基于模型和无模型方法的策略评估方法。与现有方法相比,该方法不仅假设具有统计学意义,也表现出更好的性能 - 使用随机特征的自监督强化学习转移
通过在模型自由学习算法中引入自我监督学习的方法,使其能够实现任务转移;该方法是有监督的,可以在没有奖励标签的情况下进行训练,并且可以快速地部署到新任务中。
- AAAI基于样本相关性的 Vanilla 模型基 Offline 强化学习的样本复杂度
研究离线强化学习中的基于模型的算法及其基于样本的复杂度。分析了具有相关性样本的场景下,基于模型的离线 RL 和基于重要性采样的离线评估样本的复杂度。提供了一种优于样本均值估计的估计器。
- ENTROPY: 环境转换器和脱机策略优化
该研究提出了一种基于序列建模的架构,即 “环境变换器(Environment Transformer)”,以解决先前基于模型的离线强化学习方法在生成多步轨迹时缺乏长期预测能力的问题,并通过该架构提出了一种新的名为 ENTROPY 的强化学习 - 强化学习中样本高效函数逼近的通用框架
本文提出了一个能够统一模型驱动和无模型驱动强化学习的通用框架,本框架中提出了一个可见证贝尔曼算法(ABC)类别,能够涵盖几乎所有文献中的马尔可夫决策过程(MDP)模型。结合该框架,本文提出了一个新的算法 OPtimization-based - ICLR简化基于模型的强化学习:使用单一目标学习表示、潜空间模型和策略
本研究提出了一种单一目标的方法,该方法同时优化隐空间模型和策略以实现高回报并保持自一致性,从而在提高样本效率的同时实现更好的强化学习效果。
- ECCV基于神经社会物理学的人类轨迹预测
本研究提出了一种新的轨迹预测方法,该方法结合了基于规则、几何或优化的模型和基于深度学习的方法,使用了一个新的神经微分方程模型(Neural Social Physics),能够较好地模拟行人行为,并在六个数据集上将性能提高了 5.56% - - 深度学习图像增强技术的全面调查
本文调研了基于深度学习的图像增强方法,并将其分为三类:无模型、有模型和优化策略。同时,讨论了常见应用的趋势以及使用组和核理论以及无监督学习实现的图像增强方法。
- DreamingV2: 基于离散世界模型的强化学习方法,无需重构
提出了一种新的强化学习方法 DreamingV2,它是 DreamerV2 和 Dreaming 的协作扩展,与 DreamingV2 的离散表示和 Dreaming 的无重构目标相比,DreamingV2 在 3D 机器人臂任务上取得了最 - ICLR基于模型的离线元强化学习与正则化
该研究论文介绍了一种基于模型的元强化学习方法 ——MerPO,使用正则化策略优化来实现任务结构推断和元策略安全探索。该方法通过探究 “探索” 元策略的分布情况和 “利用” 离线数据集的紧密度之间的平衡,对元强化学习算法进行了改进,并在实验中 - AAAI基于模型的安全强化学习的保守和自适应罚函数
提出了一种基于模型的安全 RL 框架 CAP,可保证在真实环境中所有的中间解均是安全的,通过适应性地捕捉模型不确定性来平衡奖励和成本目标,并在 RL 训练过程中自适应地调整惩罚,以实现比之前的安全 RL 算法更高的样本效率和较少的违规。
- ICLR离线基于模型的强化学习中设计选择的重新审视
本研究比较不同的不确定性启发式方法,并设计新的协议来研究它们与其他超参数的交互作用,使用这些洞见,我们展示了使用 Bayesian 优化选择这些关键超参数可以产生优越的配置,这与现有手动调整的最先进方法大不相同, 从而实现了大幅度的强化学习 - 鲁棒可预测控制
这篇研究论文提出了一种基于信息压缩的强化学习算法,通过最小化信息、建立自洽的潜在空间模型和策略来提高压缩性能,并在性能、鲁棒性和泛化性方面都有显著提升。
- 基于模型的对手建模
本文提出基于模型的对手建模(MBOM)方法,通过模拟环境模型中的递归推理过程和混合想象对手策略来适应各种类型的对手,在固定策略、初学者和推理者等多重对手场景中,MBOM 的适应性比现有方法更优。
- ICLR认知自我:通过机器感知实现可迁移的视觉控制策略
提出了一种基于模型的强化学习策略,通过训练可转移机器人感知的世界动力学模型和机器人特定的动力学模型,从而利用以前在其他机器人上收集的数据来减少对机器人特定数据的需求,并在模拟和实际机器人上实现了视觉控制任务上的零泛化
- CVPR基于噪声和卷积核详尽退化建模的盲图像超分辨率
本研究提出了一种基于概率框架的盲超分辨率图像重建方法,针对复杂的噪声和模糊核问题,该方法采用了非独立同分布的噪声模型和一种新颖的模糊核生成器来增加模型的自由度。经过综合实验,该方法在合成数据集和真实数据集上均优于当前最先进的技术。