Jul, 2024

大语言模型下文本标注的提示稳定性评分

TL;DR我们提出了一种诊断提示稳定性的通用框架,通过采用传统的内部和外部编码者可靠性评分方法,并提供了一个名为PromptStability的Python包来估计提示稳定性得分(PSS)。通过使用六个不同的数据集和十二个结果,我们对超过150,000行的数据进行分类以:a)诊断提示稳定性较低的情况;和b)展示该包的功能。最后,我们提供了应用研究人员的最佳实践建议。