AdaFlow：具有方差自适应流动策略的模仿学习

Feb, 2024

AdaFlow：具有方差自适应流动策略的模仿学习

AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies

Xixi Hu, Bo Liu, Xingchao Liu, Qiang Liu

TL;DR基于扩散的模仿学习改善多模态决策制定，但由于扩散过程中的递归导致推理速度显著降低，迫使我们设计高效的策略生成器，同时保持生成多样化动作的能力。为了解决这一挑战，我们提出了 AdaFlow，一种基于流式生成建模的模仿学习框架。AdaFlow 使用以状态为条件的常微分方程（ODEs）来表示策略，这些方程被称为概率流。我们揭示了它们的训练损失的条件方差与 ODEs 的离散误差之间的有趣关联。借此洞察，我们提出了一种方差自适应 ODE 求解器，能够在推理阶段调整其步长，使 AdaFlow 成为一种自适应决策制定者，提供快速推理而不牺牲多样性。有趣的是，当动作分布是单峰时，它自动降级为单步生成器。我们全面的实证评估表明，AdaFlow 在包括成功率、行为多样性和推理速度在内的所有维度上都能达到高性能。代码可在此 https URL 获取。

Abstract

diffusion-based imitation learning improves behavioral cloning (BC) on multi-modal decision-making, but comes at the cost of significantly slower inference due to the recursion in the diffusion process. It urges

diffusion-based imitation learning behavioral cloning adaflow flow-based generative modeling adaptive decision-maker

发现论文，激发创造

AdaDiff：自适应步长选择的快速扩散

AdaDiff 是一个轻量级框架，通过学习实例特定的步骤使用策略，优化了扩散模型的图像 / 视频生成过程，以最大化平衡推理时间和生成质量的回报函数，并在减少推理时间至少 33% 的情况下实现与基准方法相似的视觉质量。

Nov, 2023

深度条件生成学习：模型和误差分析

我们介绍了一种基于常微分方程（ODE）的深度生成方法，称为条件 Follmer 流。该方法能够将标准高斯分布有效地转换为目标条件分布。在实现上，我们使用欧拉方法离散化流，并使用深度神经网络非参数地估计速度场。此外，我们推导出学习样本分布与目标分布之间的 Wasserstein 距离的非渐近收敛速率，为通过 ODE 流进行条件分布学习提供了首个全面的端到端误差分析。我们的数值实验展示了其在一系列场景中的有效性，从标准的非参数条件密度估计问题到涉及图像数据的更复杂挑战，证明了它在各种现有条件密度估计方法上的优势。

Feb, 2024

自适应学习有效动态：适应复杂系统的实时在线建模

提出一种名为 AdaLED 的新型系统框架，以自动编码器为主要工具，利用概率递归神经网络进行时间步进，通过在线训练不断改进，建立预测模型从而实现大规模模拟的高速运行和在线适应性学习，应用在 Van der Pol 振荡器，2D 反应扩散方程和 2D Navier-Stokes 圆柱流中，具有较高的准确性和鲁棒性。

Apr, 2023

一种耦合流方法的模仿学习

本文介绍了利用基于正态流的模型对状态分布进行估计的应用，该算法针对单个专家轨迹，在许多基准任务上都取得了最先进的表现，并自然地扩展到各种其他设置，包括子采样和仅状态制度。

Apr, 2023

通过神经微分方程进行分布学习：一种非参数统计的观点

用普通微分方程（ODE）模型通过似然最大化进行训练的分布学习的非参数统计收敛分析是首次建立的，将速度场类和目标密度的相关收敛率以及对神经网络的影响纳入考虑。

Sep, 2023

基于归一化流的观测式模仿学习 (IL-flOw)

本论文介绍了一种基于状态观测的逆强化学习算法 IL-flOw，其将奖励建模与策略学习解耦，并利用深度密度估计方法生成奖励信号，避免了对抗训练方法的不稳定性问题。通过使用状态转移概率密度作为正向强化学习的奖励信号，实验结果展示了在大规模机器人控制任务上的优秀表现。

May, 2022

ADAPT: 随机动态系统的零 - shot 自适应策略转移

本文介绍了一种名为 Adaptive Policy Transfer for Stochastic Dynamics（ADAPT）的算法，它可以实现零 - shot 安全、鲁棒、动态可行的 RL 策略转移至具有动态误差的新领域。ADAPT 共振离线政策学习的优点，通过在线管基于模型预测控制来减弱源和目标动态之间的有界模型不匹配。我们在 2 个连续的非完整模拟动态系统上评估了 ADAPT，在 4 种不同的扰动模型中发现，ADAPT 的平均奖励累积比直接策略传递高 50%-300%。

Jul, 2017

深度聚合：序列预测的可微分模仿学习

使用 Imitation Learning 的 Policy Gradient Extension 能够充分利用优秀的预测模型，在深度神经网络处理的机器人控制及序列预测任务上比弱化的 Reinforcement Learning 更高效、损失较小，其 IL 的理论研究展现 AggreVaTeD 比其他 RL 算法更少的样本能达到更优质的性能

Mar, 2017

神经流：神经常微分方程的有效替代方案

本文提出通过直接建模解曲线流和神经网络，消除昂贵的数值解算器，提高神经 ODE 的建模能力，并提供几种适用于不同应用场景的流体结构，从而提高计算效率和一致性。应用于时间序列建模、预测和密度估计，取得了良好的泛化性能。

Oct, 2021

流线型迅速：学会使用修正流生成和转移数据

我们介绍了修正流 (即沿最短路径连接两个分布的神经常微分方程模型) 的概念及其在各种相关任务中的应用，它能够为生成建模和域迁移等提供统一解决方案，并且在图像生成、图像翻译和域适应方面表现出优秀的性能。

Sep, 2022