Jun, 2024

DevBench:一个用于语言学习的多模态发展基准

TL;DR通过构建模型以较少的、多模态自然数据进行训练,并将其与行为数据进行直接比较,我们介绍了 DevBench,一个包括七个跨越词汇、句法和语义能力领域的语言评估任务的多模态基准。在这些任务中,模型在准确性和回应模式上与人类表现出差异。通过比较模型与人类在任务上的表现,我们发现在语言发展过程中模型与人类的差异,并提供了改进语言模型的切入点。