研究提出了一个名为 SequenceMatch 的方法,将序列生成问题转化成了一种模仿学习问题,并采用回溯策略和特定的训练目标以优化文本生成过程中的错误,经实验证明,该方法在语言模型的文本生成任务中比 MLE 更加优秀。
Jun, 2023
本文提出了一种基于变分自编码器的策略嵌入方法,相比传统的监督学习方法和生成对抗网络的模仿学习,该方法可以从更少的示范数据中学习到更为鲁棒的控制器,并避免了模式坍塌现象。
Jul, 2017
本文通过引入编码上下文并在条件生成对抗网络中使用,扩展了基于 Transformer 的时间序列生成对抗网络 (TTS-GAN),从而可以使用一个模型来拟合具有多个子组件的混合分布。通过定性和定量的评估指标,我们展示了该模型可以生成高维度和长时间序列数据,并在不同条件下具有较好的性能。
Oct, 2022
该研究提出了一种基于生成对抗性模型(TrajGAIL)的机器学习方法,使用生成建模方法学习城市车辆轨迹数据的潜在分布,从而能够生成与实际车辆轨迹相似的合成轨迹来解决数据稀疏性或数据隐私问题,并在模拟和现实数据集中得到显著的性能提升。
Jul, 2020
生成模型对顺序数据的拟合通常涉及两个循环计算,一个向前,一个向后。本文探讨了一种不同的解决方法:要求生成模型学习当前状态和前一个状态之间的联合分布,而不仅仅是转移概率。在玩具数据集上展示了不同架构使用这一原则能够学习通常需要向后传递的数据方面的内容。
Oct, 2023
提出了一种提取专家行为策略的新框架,直接从数据中提取策略,将模仿学习与生成对抗网络进行比拟,提出了无模型模仿学习算法,并证明该算法在模仿大型、高维度环境中的复杂行为时相对于现有无模型模仿学习方法具有明显性能提升。
Jun, 2016
该文介绍了 Model based Adversarial Imitation Learning (MAIL)算法,为对抗性模仿学习问题提供了一种基于模型的方法,使用前向模型使该系统完全可微分,以训练出优秀的策略。在 MuJoCo 物理模拟器上测试后,该方法的初始结果超过了当前的最优状态。
Dec, 2016
本文比较评估了不同生成模型在连续学习时的适用性,主要研究了不同策略下生成模型的记忆及生成质量表现,结论为原始 GAN 模型表现最优,而 generative replay 策略最优。
Dec, 2018
本文提出了一种名为 SeqGAN 的序列生成框架,该框架将数据生成器建模为强化学习中的随机策略,通过直接执行梯度策略更新来绕过生成器差异化问题,并利用蒙特卡罗搜索将 RL 奖励信号从 GAN 鉴别器传递回中间状态动作步骤。在合成数据和现实世界任务上的广泛实验表明,SeqGAN 比强基线模型有了显著的改进。
Sep, 2016
本文提出了一种基于变压器自编码器的、使用对抗训练方案进行正则化的人工多变量时间序列信号生成方法,通过 t-SNE 可视化、动态时间扭曲(DTW)和熵评分对生成的信号进行评估,结果表明与卷积网络方法相比,生成的信号与示例数据集的相似性更高。
Jan, 2024