Sep, 2023

探索大型语言模型在通过思维链路提示进行反思评估方法中的效力

TL;DR通过CoT提示方法来评估四个语言模型对第三年医学生反思性文章的打分,结果显示Llama-7b表现最差,均方误差最高,而ChatGPT表现出色,科恩卡帕分数达到0.53。此外,所选模型均优先考虑用户隐私,允许用户删除自己进行的会话。