学习无关变量以实现策略泛化
本研究针对强化学习中泛化性不足的问题,提出了一种基于不变性原则的学习算法 Invariance Policy Optimization (IPO),该算法能够在训练过程中学习到一种不变策略,并能够在线性二次调节器和网格世界问题以及机器人学习开门问题上表现出良好的泛化性能。
Jun, 2020
本文通过比较三种方法,探究如何寻找适当的数据增强方式,并结合两个新的正则化项,以理论上的方式为某些 actor-critic 算法的数据增广提供支持,最终在 Procgen 基准测试上展示了在相对于标准 RL 算法提高了~40% 的测试性能。我们的代理优于其他针对 RL 中泛化改进的基线。此外,我们还展示了我们的代理学习出更能适应环境变化的策略和表示,包括不保留背景信息的变化。
Jun, 2020
研究如何在强化学习的零样本泛化中,通过训练一个能够有效探索领域的行为策略,来克服先前面临的过拟合问题。该研究通过使用一套名为 “ExpGen” 的算法,在多个 ProcGen 挑战任务中实现了良好的实验效果,尤其是在迷宫和抢劫等与任务可视化相关深度度量难解的情形下。
Jun, 2023
我们提出了一种新的方法来解决离线强化学习中的泛化问题,通过学习动力学模型并检查其是否与固定类型的转换即状态空间中的平移等变,使用熵正则化增加等变集合并用结果转变的样本增强数据集,最后基于增强数据集使用现成的离线强化学习算法离线学习新策略,实验证明该方法可以大大提高对环境进行测试时的策略效果。
Sep, 2023
该研究提出了一种简单的过程来通过参数化 augmentations 的分布并优化训练损失一起调整网络和 augmentation 参数,从而从大量的 augmentations 中仅使用训练数据恢复图像分类、回归、分割和分子性质预测的正确不变性集和范围。
Oct, 2020
本文提出了一种新的强化学习通用 - 专业训练框架,通过辅助奖励和权重克隆的方式,将先前的训练经历分为 “通用训练” 和 “专业训练”,以在不同环境下实现最佳政策学习。
Jun, 2022
通过增强学习技术,我们提出了一种新方法来训练基于语言模型的 AI 助手,在不同数据组和领域之间实现一致的策略,并提高训练稳定性和模型泛化能力。
Oct, 2023