BriefGPT.xyz
Ask
alpha
关键词
scenario-based evaluation
搜索结果 - 2
ScenEval:代码生成场景评估的基准
该研究论文介绍了一种基于场景的机器学习模型评估方法,并构建了一个基准测试集,用于代码生成任务的评估。实验证明,ChatGPT 在复杂的编码任务中表现最差,生成的代码行数通常比参考解决方案少,但在圈复杂度和认知复杂度方面更复杂,如果生成的代码
→
PDF
18 days ago
一种新的基准测试范式和基于尺度和动态感知的自身行为者行人轨迹预测模型
本文提出了一种基于场景进行评估的新模式,以评估自主行驶系统中行人轨迹预测算法的挑战,并通过实证评估在多模态来源数据的融合和有效的分层方式下取得了显著的改进。
PDF
9 months ago
Prev
Next