BriefGPT.xyz
Ask
alpha
关键词
human-powered evaluations
搜索结果 - 1
人工智能计量学:从基准测试到仪器
本文旨在将计量科学应用于人力(群体)评估中,以加强测量人工智能系统性能的科学,并以词汇相似性基准 WS353 和先前发布的使用它进行评估的实验为例,采用计量学来对基准数据集进行基准测试。
PDF
5 years ago
Prev
Next