BriefGPT.xyz
Ask
alpha
关键词
task types
搜索结果 - 2
同时评估 LLMs 中的多个问题:评估 LLM 能力的新范式
当前的 LLM 评估主要通过包含单个问题的提示进行评估。我们提出多问题评估作为研究 LLM 的多问题处理能力的额外方法。我们在这方面进行了系统研究,通过全面考察 4 个相关类型的任务上的 7 个 LLM,这些任务是基于 6 个分类基准构建的
→
PDF
21 days ago
一种可证明改进的众包算法,适用于难和易任务
本文提出了一种基于谱方法的标签聚类算法,从而在众包任务中提高 Dawid-Skene 模型推理个体正确标签的准确度。
PDF
a year ago
Prev
Next