Jul, 2024

LAB-Bench: 测量生物研究语言模型的能力

TL;DR评估自然语言处理模型在科学研究中的能力,引入了 Language Agent Biology Benchmark (LAB-Bench),并且报告了与人类专家生物学研究者进行比较的结果。