SequenceMatch: 带回溯的自回归序列模型的模仿学习

Jun, 2023

SequenceMatch: 带回溯的自回归序列模型的模仿学习

SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking

Chris Cundy, Stefano Ermon

TL;DR研究提出了一个名为 SequenceMatch 的方法，将序列生成问题转化成了一种模仿学习问题，并采用回溯策略和特定的训练目标以优化文本生成过程中的错误，经实验证明，该方法在语言模型的文本生成任务中比 MLE 更加优秀。

Abstract

In many domains, autoregressive models can achieve low log-likelihood on the task of predicting the next observation. However, this maximum-likelihood (MLE) objective does not necessarily match a downstream use-case of autoregressively generating high-quality sequences. The MLE objecti

autoregressive models sequence generation imitation learning backtracking sequencematch

发现论文，激发创造

对比模仿生成时间序列

一种结合自回归模型和对抗模型的生成框架，通过训练一个本地的过渡策略和一个全局的能量模型来生成时间序列数据，以模拟其连续行为，并在实证分析中验证其性能。

Nov, 2023

使用非自回归模型的文本编辑模仿学习课程

提出了一个框架以训练非自回归序列到序列模型进行编辑任务，在此过程中，原始输入序列被迭代地编辑以生成输出。通过两种策略解决了在机器翻译训练的模仿学习算法在编辑场景下导致的训练和推断之间不匹配问题，从而显著提高了英文编辑任务上的输出质量和输出复杂度。

Mar, 2022

序列建模是离线强化学习的强有力竞争者

该研究从数据子优劣性和任务复杂性两个方面探讨了离线强化学习的三种主要范式：Q-Learning、Imitation Learning 和 Sequence Modeling 的表现，并发现当接收到低质量数据并且奖励稀少时，Sequence Modeling 更优，因为它需要更多的数据但更加稳健且可以更好地适应任务复杂度。

May, 2023

通过迭代能量最小化进行序列模型规划

本研究提出了一种将规划与序列模型相结合的方法，基于迭代能量最小化的思路，通过训练掩盖语言模型以捕捉动作轨迹的隐式能量函数，并将规划形式化为最小化能量的轨迹，实现了在不同任务上改进强化学习性能，并证明了通过迭代优化程序能够实现新的任务泛化、测试时间约束自适应和计划组合的能力。

Mar, 2023

神经序列建模任务损失最小化参数搜索中的 MLE 指导

本文提出了一种名为 MGS 的新方法，其中基于随机搜索参数空间的分布，使用非确定性方法引导参数更新方向，从而优化序列级别的任务损失，实现了显著的重复性和非终止性减少，并产生与最小风险训练相似的性能。

Jun, 2020

校准序列似然改进条件语言生成

本文介绍了序列可能性校准（SLiC）的方法，在序列生成过程中较大束搜索大小时生成质量会下降，通过使用 SLiC 可以不用启用启发式方法，从而显著提高候选解的生成质量。与传统的 MLE 模型相比，我们在许多生成任务中都获得了更好的结果。

Sep, 2022

离线强化学习问题的序列建模方法

本文介绍了如何使用序列建模来解决强化学习问题，使用 Transformer 架构来建模轨迹上的分布，并改造了波束搜索作为规划算法，在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习等方面展示了该方法的灵活性和高效性，同时将该方法与基于模型的算法相结合，使其在稀疏奖励、长时间序列任务中表现为最先进的计划器。

Jun, 2021

MLE 和 RL 在序列预测中的联系

采用统一的熵正则化策略优化框架，将不同算法统一为特殊实例，从而提供了统一的探索与学习效率的视角。此外，本文还提出了一种动态插值的算法，用于调度序列模型的学习，实验证明其优于传统算法。

Nov, 2018

序列匹配：半监督学习的弱强增强设计再探讨

使用多重数据增强及一致性约束，提出了一种高效半监督学习方法 SequenceMatch，可解决确认偏见问题并在标准基准测试中实现更高的准确性。

Oct, 2023

序列导师：带有 KL 控制的序列生成模型的保守微调

本文提出了一种改善递归神经网络 (RNN) 生成序列结构和质量的通用方法，同时保持数据原本学习的信息和样本多样性，首先使用最大似然估计 (MLE) 对 RNN 进行预训练，接着通过强化学习 (RL) 训练另一个 RNN 生成高质量的输出，该方法在生成新的音乐旋律和计算分子结构中均表现出良好效果。

Nov, 2016