关键词systematic evaluation benchmark
搜索结果 - 2
- CityBench: 评估大型语言模型作为世界模型的能力
在这篇论文中,我们提出了 CityBench 作为第一个用于评估大规模语言模型在城市领域能力的系统性评估基准,通过构建 CitySim 来整合多源数据并模拟细粒度的城市动态,设计了 7 个任务用于评估 LLMs 作为城市规模世界模型在感知理 - 基于注释指南的知识增强:用于提升教育文本分类的大型语言模型
使用基于批注指南的知识增强(AGKA)方法,我们对大型语言模型(LLMs)进行了综合评估,并在学习参与度分类(LEC)任务上取得了改进。AGKA 利用 GPT 4.0 从批注指南中检索标签定义知识,并应用随机欠采样器选择一些典型示例,通过六