BriefGPT.xyz
大模型
Ask
alpha
关键词
test datasets
搜索结果 - 4
ScenEval:代码生成场景评估的基准
该研究论文介绍了一种基于场景的机器学习模型评估方法,并构建了一个基准测试集,用于代码生成任务的评估。实验证明,ChatGPT 在复杂的编码任务中表现最差,生成的代码行数通常比参考解决方案少,但在圈复杂度和认知复杂度方面更复杂,如果生成的代码
→
PDF
16 days ago
ICML
In or Out? 修正 ImageNet 数据集的识别准确度
提出一种新的测试集 NINCO 以及相应的合成 OOD 单元测试来更准确地评估模型在 Out-of-distribution 检测中的表现,并针对预训练对 OOD 检测性能的影响进行了详细的评估。
PDF
a year ago
评估病理学 AI 解决方案的测试数据集建议
人工智能在数字组织学图像中的自动信息提取已被证明可以改善病理诊断。然而,在正式使用前,需要评估其预测性能并获得监管机构的认可,而这需要恰当的测试数据集,本文总结了病理测试数据集的一般建议,旨在帮助人工智能开发者证明其产品的实用性,并帮助监管
→
PDF
2 years ago
Interspeech 2021 深度降噪挑战
Deep Noise Suppression Challenge aims to improve speech quality through open-sourced datasets and evaluation frameworks
→
PDF
3 years ago
Prev
Next