May, 2022

Few-shot 提示在文本推理中解释的不可靠性

TL;DR本文研究了将 GPT-3 等大型语言模型与说明相结合是否能够提高上下文学习效果,发现对于涉及文本推理的自然语言推理和问答任务,使用不同样式的说明对 OPT、GPT-3(davinci)和 InstructGPT(text-davinci-001)等四个 LLM 的性能仅会带来小至中等的准确性提高,而 text-davinci-002 能够带来更实质性的提高,并且 LLM 产生的说明可能不支持、甚至与模型预测不一致,但这些说明仍有助于验证模型的预测,在此观察基础上,文章通过训练校准器使用自动提取的评分评估说明的可靠性,从而在全部数据集上实现后处理性能的提高。