BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-task evaluation
搜索结果 - 2
ACL
Ranger: 基于效应大小的多任务评估工具
本文介绍了 Ranger 工具箱,通过元分析来解决 NLP 和 IR 应用中聚合不可比度指标的问题,从而为多个任务的统计评价提供了一个任务不可知的工具箱。
PDF
a year ago
文档理解数据集与评估(DUDE)
本文探讨文档人工智能 (Document AI) 社区重新评估当前的方法学,并挑战创建更具实际意义的基准标准的任务。文档理解数据集和评估 (DUDE) 旨在纠正在理解视觉丰富文档方面的研究进展。我们提出了新的数据集,其中包含来自各个行业、领
→
PDF
a year ago
Prev
Next