May, 2023

零样本分类中的提示复杂度导航:计算社会科学中大型语言模型的研究

TL;DR在计算社会科学分类任务中,评估了 ChatGPT 和 OpenAssistant 两种公共可访问的 LLM 的零次效果,并研究了各种提示策略的影响。发现在零次设置下,当前 LLMs 无法与较小的经过微调的基线变压器模型(如 BERT)的性能匹配。此外,发现不同的提示策略可以显着影响分类准确性,准确性和 F1 分数的差异超过 10%。