Nov, 2023
探索使用提示的大型语言模型作为可解释的度量
Exploring Prompting Large Language Models as Explainable Metrics
TL;DR本文描述了IUST NLP实验室在Eval4NLP 2023会议上提出的一种用于解释性评估的零样本基于提示的策略,该策略使用了大型语言模型(LLMs)来评估总结任务,并通过实验证明了LLMs在自然语言处理(NLP)中,特别是在总结领域具有良好的潜力。在这些实验中,使用了少样本和零样本的方法。最佳提示在测试数据的文本总结任务中与人类评估的肯德尔相关性达到了0.477。代码和结果可以在GitHub上公开获取。