BriefGPT.xyz
Ask
alpha
关键词
dynamic benchmarking
搜索结果 - 3
ICLR
动态基准理论
本研究理论分析了动态基准测试的两种实现方式,第一种模型中,模型性能最初会有所提高,但只会在三轮后停滞,而第二种模型则保证了比第一种模型更多的进展,但复杂度更高,并通过模拟动态基准测试的结果来验证了理论分析,为动态基准测试提供了理论和实践上的
→
PDF
2 years ago
测试基准和生产数据之间上下文变化的识别
研究探讨了机器学习模型在生产数据上的脆弱性,并提出了上下文偏移的概念,探讨了三种应对上下文偏移的方法:人类直觉和专业知识辅助建模,动态基准测试提高泛化能力,提高模型的透明度,文章还通过人脸表情识别、深度伪造检测和医学诊断等三个领域对模型偏差
→
PDF
2 years ago
ACL
Dynabench: NLP 基准评估的重新思考
Dynabench 是一个开源平台,支持动态数据集创建和模型基准测试,可以在一个 web 浏览器中运行。通过人和模型操作,使 annotators 创建能够被目标模型误分类但另一个人不能误分类的示例。本文认为,Dynabench 解决了当前
→
PDF
3 years ago
Prev
Next