Sep, 2023

锚点:以更少示例度量模型

TL;DR现代语言模型的性能可以通过较小的评估集进行基准测试和阐明,Anchor Point Selection 技术能够可靠地评估并排名模型的性能,而 Anchor Point Maps 则可用于可视化不同模型在数据集中不同区域的性能比较。