Aug, 2023

基于策略梯度的离散提示优化的对话式激励在小样本学习中的应用

TL;DR基于对话的基于策略梯度的离散提示优化方法通过多轮对话适应性策略生成可读性提示集,并提出了具有线性复杂度的高质量提示筛选度量和基于策略梯度的强化学习框架,优于四个开源数据集上平均 1.52%的最先进方法,在只使用少量的预训练语言模型参数进行学习的少样本设置中,$DP_2O$ 具有良好的通用性、稳健性和泛化能力。