Oct, 2023

评估大规模语言模型的词汇测试的持续有效性

TL;DR通过对智能语言模型进行语言能力测试,我们发现 TOEFL 考试对于现代主要语言模型仍有指导意义。然而,这些模型在空白词汇项上表现较差,并且在西班牙语上泛化测试时情况更糟。尽管如此,最好的模型表现出色,并且能够指出字典中未知的词汇。