ACLMay, 2023

ANALOGICAL - 大语言模型长文本类比的新基准

TL;DR提出了一个新的基准测试,名为 ANALOGICAL,在长文本的类比上对大型语言模型(LLMs)进行内在评估。在使用 13 个数据集和 3 种不同距离度量进行评估的过程中,发现当上升类比分类学时,LLMs 越来越难以识别类比。