具备偏好排名的 Prompt-Tuning 决策 Transformer

May, 2023

具备偏好排名的 Prompt-Tuning 决策 Transformer

Prompt-Tuning Decision Transformer with Preference Ranking

Shengchao Hu, Li Shen, Ya Zhang, Dacheng Tao

TL;DR本文提出了 Prompt-Tuning DT 算法，使用轨迹段作为提示来指导强化学习（RL）代理获取环境信息并通过黑盒调整来优化提示，以提供更多相关信息和指导代理走向特定任务的方向，在低数据情况下仅学习 0.03％的参数即可实现与全模型微调相当甚至更好的性能，为 RL 中优化大型代理的特定任务提供了有前途的方向。

Abstract

prompt-tuning has emerged as a promising method for adapting pre-trained models to downstream tasks or aligning with human preferences. Prompt learning is widely used in NLP but has limited applicability to RL due to the complex physical meaning and environment-specific information con

prompt-tuning rl prompts trajectory segments black-box tuning rl agents

发现论文，激发创造

小样本策略概括的决策 Transformer

人类可以利用以往的经验从少量的演示中学习新的任务。我们提出了一种基于 Prompt-DT 的模型，它借助 Transformer 架构的序列建模能力和 prompt 框架，在离线 RL 中实现了少量样本的适应性。我们的实验表明，Prompt-DT 是一种强大的少量样本学习器，可以在目标任务上进行良好的泛化。

Jun, 2022

针对具有鉴别力的预训练语言模型的提示调节

该论文提出了 DPT 作为针对区分性 PLMs 的 prompt tuning 框架，并将自然语言处理任务转换为区分性语言建模问题。通过全面的文本分类和问答实验表明，与 vanilla fine-tuning 相比，DPT 在全集和低资源环境下都能显著提高性能，并解决了调整大型 PLMs 中的不稳定问题。

May, 2022

插入并玩：一种控制文本生成的提示调整方法

利用小型语言模型进行 Prompt 调整，使用提示嵌入对生成文本进行控制，验证其在情感分析、正式度和有害语言领域的有效性。

Apr, 2024

动态提示：一种用于提示调整的统一框架

本文提出了一种动态提示策略 (DP) 来优化 LMs 的 prompt tuning，通过任务优化、位置、长度和提示表示的动态优化，实验证明 DP 能提高分类准确度，并证明其在全数据、少样本和多任务情况下都是有用的。

Mar, 2023

用于视觉语言预训练模型的近似提示调优

本研究提出了一种名为 “Approximated Prompt Tuning” 的方法，用以提高视觉语言预训练模型的迁移学习效率，其基于软提示令牌的独立信息扩散步骤，从而有效地避免了昂贵的全局关注建模，并显著降低了计算复杂度。

Jun, 2023

晚阶段调优：晚期提示可能比诸多提示更好

该研究提出了一种名为 Late Prompt Tuning (LPT) 的 PETuning 方法，它将追加的提示插入到 PTM 的中间层而非输入层或所有层，并通过一个神经提示生成器获得实例依赖的提示，具有更快的训练速度和更低的内存成本，可在全数据和少样本场景下实现与全模型调整和其他 PETuning 方法竞争的性能。

Oct, 2022

提示调整的普适性和限制性

研究预训练语言模型的 prompt tuning，从通用性和有限深度固定权重的预训练 transformers 的限制方面分析了 prompt tuning 的作用，证明了 prompt tuning 在有限深度 transformers 中存在限制，并给出了所需的可调 prompt 参数的下限。

May, 2023

P-Tuning v2: 提示调节在规模和任务上可以与微调相媲美

通过优化，使用 P-Tuning v2 方法能够在广泛的模型尺度和自然语言理解任务中取得与微调相当的性能，只需调整 0.1%-3% 的参数。

Oct, 2021

无需微调？代码智能中的提示微调实验评估

研究表明预训练模型在很多代码智能任务中具有很好的效果，但由于不同形式的输入难以完全利用预训练模型的知识，这篇论文通过在代码智能任务中进行提示调整，探索它对模型性能和低资源情况的影响，实验表明相对于微调，提示调整在三项代码智能任务中都能实现更好的表现，特别是在低资源情况下表现更为优秀。

Jul, 2022

基于提示调整的语音分类任务 SpeechPrompt v2

本文提出了 “SpeechPrompt V2” 语音分类的编程框架，该框架在统一的下游任务生成和多个语言的情境下具有高效性并取得了优秀的性能。

Mar, 2023