基于监督预训练的证明上下文强化学习中的变压器决策者
在这篇论文中,我们通过引入和研究 Decision-Pretrained Transformer(DPT)并展示它在上下文感知机器人决策中的运用,证明了大型变形机模型在多个数据集上的上下文学习能力,同时实现了对决策问题的研究及基于贝叶斯后验采样的跨任务性能。
Jun, 2023
本文考虑了一类顺序决策问题的受监督预训练变压器模型,并且提出了一种解决预训练变压器训练及泛化问题的自然方法,该方法通过在训练过程中包含变压器生成的动作序列来提供更好的性能。同时,文章还分析了预训练变压器作为一种算法的特性,解释了其缺乏探索性和如何自动解决此问题,并在数值上将其与结构化算法相比较。
May, 2024
本文提供了建立在 transformer 结构上的神经序列模型的全面统计理论,阐述其在上下文数据分布中能够实现一类广泛的标准机器学习算法,基于上下文梯度下降机制的实现,以及不同算法之间的自适应选择。
Jun, 2023
提出了一种高层次的基于试错的方法,通过在环境中提供任务提示来实现离线强化学习的上下文学习,可以更高效地解决在线任务,并在长期任务中取得了最先进的结果。
May, 2024
通过理论分析,我们首次探讨了具有非线性自注意力和非线性 MLP 的 Transformer 模型的训练动态和 ICL 泛化能力,重点关注一组二分类任务,研究了各种因素对 ICL 泛化性能的影响,探讨了不同组件对 ICL 性能的贡献,并首次理论分析了模型修剪对 ICL 性能的影响,证明合适的基于大小的修剪可以在降低推理成本的同时对 ICL 产生最小影响,并通过数值实验验证了这些理论结果。
Feb, 2024
在这项研究中,我们研究了 Transformer 模型,特别是大型语言模型(LLMs),它们具有在上下文中学习的显著能力,即在未见过的输入 - 输出示例的提示下执行新任务,而无需任何显式的模型训练。我们的实证结果显示变压器在选择无监督模型和在上下文中学习不同任务家族方面表现出近乎最优的能力,但当面对超出预训练数据领域的任务或功能时,我们展示了变压器的各种失败模式和其泛化能力的退化,即使是简单的外推任务也是如此。总的来说,我们的结果强调了高容量序列模型令人印象深刻的上下文学习能力可能与其预训练数据组合的覆盖范围更紧密相关,而不是创造基本泛化能力的归纳偏差。
Nov, 2023
离线强化学习以多目标优化问题的形式重新定义为序列建模任务,引入动作空间区域以解决变换模型的关注机制在输入上分配变化注意权重的潜在问题。实验证明这些提议使得变换模型更有效地利用关注机制,达到或超过当前最先进方法的性能。
Aug, 2023
最近的研究表明,对于离线深度强化学习,通过在大型语言语料库中对决策 Transformer 进行预训练可以提高下游性能。本文首先证明了语言对于提升性能并非必要,事实上,通过对一小部分迭代进行合成 IID 数据的预训练即可与大型语言语料库的预训练相匹配;此外,使用一步马尔科夫链生成的数据进行预训练还可以进一步提高性能。受这些实验结果的启发,本文还考虑了保守 Q 学习(CQL)的预训练,它是一种基于 Q 学习的离线深度强化学习算法,通常使用多层感知机(MLP)骨干网络。令人惊讶的是,通过对一小部分迭代使用简单的合成数据进行预训练也可以改善 CQL,在 D4RL Gym 运动数据集上提供持续的性能改进。本文的结果不仅说明了离线深度强化学习中预训练的重要性,还表明预训练数据可以是合成的,并通过非常简单的机制生成。
Oct, 2023
研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练,实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力,且在多种分布转换下具有鲁棒性。
Jun, 2023
利用 ICL 对多输入多输出均衡问题进行了处理,并通过数值结果展示了基于 Transformer 的 ICL 模型具有阈值行为的潜力。
Nov, 2023