BriefGPT.xyz
Ask
alpha
关键词
evaluation tools
搜索结果 - 4
关于机器学习数据质量维度与工具的调研
机器学习中数据质量评估工具的回顾与比较,提出了开源数据质量工具发展的路线图,并探讨了大型语言模型和生成式人工智能在数据质量评估和改进中的潜在应用。
PDF
8 days ago
RES-Q: 对代码编辑大规模语言模型系统的评估
通过提出的基于自然语言指令的基准测试 RES-Q,对大型语言模型的指令遵循能力和代码仓库编辑系统进行了评估,发现模型能力存在差异,并提出了评估工具的需求。
PDF
12 days ago
tinyBenchmarks: 用较少的样例评估 LLM
通过研究 LLM 在各种关键基准测试中的表现,我们探索了减少 LLM 性能评估所需评估次数的策略,并发布了评估工具和微型基准测试,证明这些工具和测试足以可靠高效地复现原始评估结果。
PDF
4 months ago
数字苏格拉底:通过解释批评评估 LLMs
通过定义解释评议任务、建立数据集并使用数学分析,我们提出了 Digital Socrates 模型,它可以量化和质化地自动评估 LLM 模型的解释能力,填补了模型解释行为评估工具的重要空白。
PDF
8 months ago
Prev
Next